正在查看 29 个帖子:1-29 (共 29 个帖子)
  • 作者
    帖子
  • @203739 回复 ⚑举报 

    谢耳朵
    游客

    我最近在搜索红楼梦不同版本的数字资源。这个过程中碰到了很多问题。第一是高清的图片资源很难找,尤其是一些比较冷僻的版本。文字资源就更少,而且都有些错误。第二是即使找到了一些影印本,也很难确定它到底是从哪一个版本而影印来的。网站上的介绍都很模糊而且往往不准确。

    我总是要搜索很多个网站才能够找到高质量的影印本或者文字。有的时候它又会藏在谷歌搜索的后几页,或者论坛的某个回复里。

    所以我萌生了一个想法:是不是可以做一个开源的古籍资源的索引网站。给每一本古籍发一个ID,然后通过自动化的信息收集+社区维护的方式,不断更新和校对它的基本信息、收藏历史、文字图片资源、和其他版本的联系等等。

    我很快做了一个网站验证我的想法,只添加了红楼梦和史记的部分版本:

    1. 网站首页,可以搜索作品、书(具体某一个版本)

    屏幕截图 2026-01-27 101358

    2. 对于某一本书,记录它的基本信息、简短介绍

    屏幕截图 2026-01-27 101538

    3. 在网络上收集文字、图片资源。

    屏幕截图 2026-01-27 101616

    4. 介绍收藏历史、链接到其他版本屏幕截图 2026-01-27 101656

    欢迎试用,但是目前信息很少:https://www.kaiyuanguji.com/book-index

    做出这样的一个网站是容易的,最难的是信息的收集和校对。我计划首先通过爬虫及 AI 的辅助,将几个大型资源网站上的信息都取下来。但是更重要的是后续还需要一个开源社区的不停地像维基百科一样,不停地进行资源补充、核实、信息校对。

    想问问大家:这样的网站,

    • 有没有用?
    • 有没有已经有类似的解决方案?
    • 怎样做才能更好用?
    • 是否有人愿意和我一起来做后续的内容维护?

    欢迎评论和反馈,或者联系我深入探讨:sheldonli.dev [At] gmail.com

    注:目前我所了解到的最接近的就是汉籍影像集成系统(https://guji.wenxianxue.cn/)。它集成了国内外大型图书馆。但仍缺少其他功能和其他网络资源。

    @203744 回复 ⚑举报 

    公子旷
    游客

    有点古籍版百科全书的意思,感觉挺好,需要资料的时候,比在网络检索信息要更直观,加油

    @203748 回复 ⚑举报 

    未曾
    管理员

    @谢耳朵 #203739

    好强的开发者~

    感觉是很实用的系统,如果都是人工处理的也很消耗编辑啊~

    @203749 回复 ⚑举报 

    赤霄
    游客

    想法非常好,也肯定有用,只是找人一起的可能性很小,相信你可以的。

    @203750 回复 ⚑举报 

    赤霄
    游客

    为了减少工作量,建议配台电脑,部署deepseek。

    @203751 回复 ⚑举报 

    谢耳朵
    游客

    肯定要以AI+爬虫为主,人工为辅。目前的这20多本书的基本信息+介绍+收藏历史都是AI生成。但是资源还要手动找,目前AI返回的网址总是错的。

    @203752 回复 ⚑举报 

    zyz
    游客

    想法很好,先搞个目录大纲,然后再依大纲条目补充具体内容

    @203753 回复 ⚑举报 

    ZZL
    游客

    创意很好,古籍版本网

    @203755 回复 ⚑举报 

    未曾
    管理员

    @谢耳朵 #203751

    我个人的一点建议

    技术上、内容校对可以多用AI,内容生成方面还是要慎用AI。

    @203757 回复 ⚑举报 

    公子旷
    游客

    @未曾 #203755

    支持,如果内容上面使用了AI,就我个人来说肯定会放弃这个网站的

    @203759 回复 ⚑举报 

    谢耳朵
    游客

    @未曾 #203755

    确实。我仔细看了我截图的红楼梦甲戌本的AI总结,收藏历史至少有两处错误

    > 从上海地摊购得
    是收藏者后人送来的
    > 上海博物馆斥资400万美元
    应该是80多万

    只是AI即使只有八九成的准确率,也比没有好。人工录入的工作量太大了。但仅靠AI又容易传播错误信息。还需要好好权衡一下。

    @203760 回复 ⚑举报 

    xiaopengyou
    游客

    就小說類而言,

    LZ的創舉是把《中國通俗小說書目》+《增補中國通俗小說書目》+《中國通俗小說總目提要》給整合電腦化+具象實物化了,

    感謝

    @203763 回复 ⚑举报 

    未曾
    管理员

    如果不考虑版权的话。

    可以把沈津老师主编的哈佛燕京图书馆藏中文善本书志整合进去,书籍量够大文本质量也不错

    @203764 回复 ⚑举报 

    谢耳朵
    游客

    综合大家的反馈,比较合适的办法可能是:
    - 以已出版的类书为第一信源,以维基为第二信源,尽量不采用其它网站的信息。
    - 给出的信息一定要标明出处。
    - 结构化的信息尽量采用脚本处理的方式提取。其次使用AI 总结。AI总结时强制要求从信源总结而不是用自己的大模型数据。

    当然这个过程中肯定还有很多错误,需要人工订正。我会尽量少地显示其他信息,把主要精力放在文字、图片资源的搜集上,以及版本和作品之间连接。我也不想重做一个维基百科。

    @203766 回复 ⚑举报 

    夢夢
    游客

    如果收录范围是所有已经数字化的书目的话,那这个工作量相当大了。

    @203768 回复 ⚑举报 

    黍离
    游客

    仅论书目的话,籍合网的书目数据库(收录最多,几百种书目),中华典籍总目(丛书综录),上海图书馆循证平台(善本书目),古籍保护网(珍贵名录,古籍普查),光这些数字化的书目,工作量很大,而且有版权问题。

    @203769 回复 ⚑举报 

    黍离
    游客

    至于找图片资源,工作量也很大。除了全球汉籍系统,较为方便。其他网站、全库,比如上海、南图(无水印)、天一阁、浙江(维基共享)等等,要么在对应官网(检索方法不完全一样,比如内阁文库),要么是在全库,想要一一对应并且核实,工作量也非常大。

    @203772 回复 ⚑举报 

    崇鹂
    游客

    我曾经有过这种设想,但估计成本下来,应该是国家性工程。

    如果再往大了说,全国各地有很多孤本根本就没登录到网上,甚至是近年才在民间拍卖、公馆尘封的书库发现的,乃至日本欧美大量市县小镇级别的图书馆,都有中国的稀善古籍,基于这种考量后续的维护可能是无休止。除非一开始就有手眼通天的人,破除所有学阀壁垒,集全国之力主持这项工作。

    限于个人能力,一个比较简便的方案是,写程序先把《中国古籍总目》《四库总目》转录进去(网上有Excel等版本),足够支撑一个小型的古籍检索数据库。虽然《总目》最大的问题是不够总,一旦到了我熟悉的门类就会发现他不全,但也比较满足日用了

    @203788 回复 ⚑举报 

    黍离
    游客

    @崇鹂 #203772

    目前这两个都有了。四库总目不用说,日本“全国汉籍”,甚至微信读书都可以全文检索。中国古籍总目,在国家典籍智慧化平台,也可以全文检索。

    @203789 回复 ⚑举报 

    黍离
    游客

    @黍离 #203788

    打错了,是国家古籍数字化资源总平台

    @203795 回复 ⚑举报 

    崇鹂
    游客

    @黍离 #203789

    楼主的主要设想是古籍信息,包括版本对比说明,我关注的部分是基础录入,就是说最基础的古籍书名都成问题,只要一设想到这个地步,就知道对个人来说边界是无尽。

    不管怎么说,网站至少能将《总目》《四库》的书名都录入,才有了对比完善的基础(总目似乎是17万种,word文档大概5MB,虽然沧海一粟但主体够用)。这些都有公开免费可抓取的数据,可以快速把框架搭建起来,后续就是漫长的众人建设了。现在网上涉及古籍的信息,基本都是海量重复的垃圾信息,这就是楼主的痛点,但也是最漫长困难的地方,有时候一部书就是一篇博士论文


    题外话,如果有人能搞到国家图书馆的古籍总目,能碾压当前国内外一切数据库,请有关朋友能提供有关消息。我现在用国学迷的古籍检索,虽然海量错误信息,但因为书足够多,也已经不是国内外任何书目检索系统可比的了。至于精确的基础信息,恐怕是网络世界最宝贵的东西。有时也不禁想,恐怕图书馆自己都搞不清有什么书,“摸清家底”的号召出来那么多年,太多贫穷的地方根本无力统计清楚,目前只是限于各地自发统计、有限报告、新建文件夹的程度而已,国外限于政策项目,别人也遮遮掩掩,互联网之狭窄信息之有限常常让我深感无力

    @203836 回复 ⚑举报 

    黍离
    游客

    @崇鹂 #203795

    光书名问题,就很难了。先不说有没有著录条例,是否规范著录。古籍普查之前,各图书馆出版的书目不多,且大多是善本书目,普通古籍书目很少。大量普通古籍没有清点、统计、著录。哪怕是国家图书馆,普通古籍总目,也只出了五卷(原计划十五卷),上海图书馆的普通古籍,长期以来,仅抄就一套卡片让读者检索。古籍普查后,情况有改变,但仍有很多书目没有上网。

    这么浩大的工程,也只能国家来牵头。之前的中国古籍善本书目,是周总理的指示,尚且差点烂尾。如今技术条件虽然好了,但重视程度,不如善本书目那时。至于个人,只能先搭起框架,先用着再说。

    @204000 回复 ⚑举报 

    谢耳朵
    游客

    根据大家的反馈,我的计划调整为

    • 先试着录入汉书艺文志、四库全书目录、以及一些近代的目录,有一个基本的框架。
    • 试着扫描维基文库,以及一些大的图书馆,链接文字、图片资源。

    根据效果再决定下一步的计划。有所进展之后我会在技术交流区分享。

    @204547 回复 ⚑举报 

    世真
    游客

    做目录说简单也简单,说难也难,感觉全國古籍普查登記基本數據庫的目录可以先做进去,毕竟是现成的,如果有需要我也可以提供一些,但是目前来看,你这个网站响应不是很好(至少在我这打开极慢)

    @204583 回复 ⚑举报 

    h
    游客

    各位,请问 全球汉籍影像开放集成系统 是不是打不开了?

    @204688 回复 ⚑举报 

    谢耳朵
    游客

    @世真 #204547

    我现在正在整理四库全书目录,汉书艺文志等,先搭一个框架。然后准备通过这些书目搜索维基文库、internet archive、国内外图书馆等资源做链接。

    目前还没有备案,所以服务器在海外,访问会不太稳定。有些眉目后我会申请备案,部署一些国内的节点。

    @205182 回复 ⚑举报 

    菩提
    游客

    典津 - 全球汉籍影像开放集成系统 AI驱动版

    guji.cckb.cn/

    这个网站已经实现这样的效果了?

    @206978 回复 ⚑举报 

    谢耳朵
    游客

    @菩提 #205182

    这个网站确实做的已经很好了,但是只收录了图书馆的资源。缺少维基文库、维基共享、Internet Archive等境外网站。也不包括识典古籍、书格这些网站的内容。毕竟是官方学术机构做的,大概不好收录这些。

    另外搜索一本书经常弹出几十个结果,多数是价值不大的版本,难以挑选。

    我也希望问问大家有没有这个网站满足不了的需求。

    @207014 回复 ⚑举报 

    庚明雨
    游客

    索引网站,看到过类似的创意:guji.cckb.cn/category-browse

    史上首个AI编订古籍版本目录,基于全球汉籍版本循证AI智能体自动生成,任务持续运行中,目前进度:8.2%

正在查看 29 个帖子:1-29 (共 29 个帖子)
正在查看 29 个帖子:1-29 (共 29 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:【意见征集】做一个古籍信息、资源索引的网站
您的信息:



发帖/回帖前,请了解相关版规

0,邮箱地址尽量真实有效,随意填写的可能会被系统误判为垃圾内容。
1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1976年以后的资源需求或分享将会被清理删除。