【意见征集】做一个古籍信息、资源索引的网站

正在查看 29 个帖子：1-29 (共 29 个帖子)

作者
帖子
2026年01月28日 02:35 @203739 回复 ⚑举报　
谢耳朵
游客
我最近在搜索红楼梦不同版本的数字资源。这个过程中碰到了很多问题。第一是高清的图片资源很难找，尤其是一些比较冷僻的版本。文字资源就更少，而且都有些错误。第二是即使找到了一些影印本，也很难确定它到底是从哪一个版本而影印来的。网站上的介绍都很模糊而且往往不准确。
我总是要搜索很多个网站才能够找到高质量的影印本或者文字。有的时候它又会藏在谷歌搜索的后几页，或者论坛的某个回复里。
所以我萌生了一个想法：是不是可以做一个开源的古籍资源的索引网站。给每一本古籍发一个ID，然后通过自动化的信息收集+社区维护的方式，不断更新和校对它的基本信息、收藏历史、文字图片资源、和其他版本的联系等等。
我很快做了一个网站验证我的想法，只添加了红楼梦和史记的部分版本：
1. 网站首页，可以搜索作品、书（具体某一个版本)
2. 对于某一本书，记录它的基本信息、简短介绍
3. 在网络上收集文字、图片资源。
4. 介绍收藏历史、链接到其他版本
欢迎试用，但是目前信息很少：https://www.kaiyuanguji.com/book-index
做出这样的一个网站是容易的，最难的是信息的收集和校对。我计划首先通过爬虫及 AI 的辅助，将几个大型资源网站上的信息都取下来。但是更重要的是后续还需要一个开源社区的不停地像维基百科一样,不停地进行资源补充、核实、信息校对。
想问问大家：这样的网站，
- 有没有用?
- 有没有已经有类似的解决方案?
- 怎样做才能更好用?
- 是否有人愿意和我一起来做后续的内容维护？
欢迎评论和反馈，或者联系我深入探讨：sheldonli.dev [At] gmail.com
注：目前我所了解到的最接近的就是汉籍影像集成系统（https://guji.wenxianxue.cn/）。它集成了国内外大型图书馆。但仍缺少其他功能和其他网络资源。
2026年01月28日 07:25 @203744 回复 ⚑举报　

公子旷
游客
有点古籍版百科全书的意思，感觉挺好，需要资料的时候，比在网络检索信息要更直观，加油
2026年01月28日 08:28 @203748 回复 ⚑举报　

未曾
管理员
@谢耳朵 #203739
好强的开发者~
感觉是很实用的系统，如果都是人工处理的也很消耗编辑啊~
2026年01月28日 08:33 @203749 回复 ⚑举报　

赤霄
游客
想法非常好，也肯定有用，只是找人一起的可能性很小，相信你可以的。
2026年01月28日 08:34 @203750 回复 ⚑举报　

赤霄
游客
为了减少工作量，建议配台电脑，部署deepseek。
2026年01月28日 08:43 @203751 回复 ⚑举报　

谢耳朵
游客
肯定要以AI+爬虫为主，人工为辅。目前的这20多本书的基本信息+介绍+收藏历史都是AI生成。但是资源还要手动找，目前AI返回的网址总是错的。
2026年01月28日 08:44 @203752 回复 ⚑举报　

zyz
游客
想法很好，先搞个目录大纲，然后再依大纲条目补充具体内容
2026年01月28日 08:51 @203753 回复 ⚑举报　

ZZL
游客
创意很好，古籍版本网
2026年01月28日 09:09 @203755 回复 ⚑举报　

未曾
管理员
@谢耳朵 #203751
我个人的一点建议
技术上、内容校对可以多用AI，内容生成方面还是要慎用AI。
2026年01月28日 09:16 @203757 回复 ⚑举报　

公子旷
游客
@未曾 #203755
支持，如果内容上面使用了AI，就我个人来说肯定会放弃这个网站的
2026年01月28日 09:30 @203759 回复 ⚑举报　

谢耳朵
游客
@未曾 #203755
确实。我仔细看了我截图的红楼梦甲戌本的AI总结，收藏历史至少有两处错误
> 从上海地摊购得
是收藏者后人送来的
> 上海博物馆斥资400万美元
应该是80多万
只是AI即使只有八九成的准确率，也比没有好。人工录入的工作量太大了。但仅靠AI又容易传播错误信息。还需要好好权衡一下。
2026年01月28日 09:34 @203760 回复 ⚑举报　

xiaopengyou
游客
就小說類而言,
LZ的創舉是把《中國通俗小說書目》+《增補中國通俗小說書目》+《中國通俗小說總目提要》給整合電腦化+具象實物化了,
感謝
2026年01月28日 09:46 @203763 回复 ⚑举报　

未曾
管理员
如果不考虑版权的话。
可以把沈津老师主编的哈佛燕京图书馆藏中文善本书志整合进去，书籍量够大文本质量也不错
2026年01月28日 09:46 @203764 回复 ⚑举报　

谢耳朵
游客
综合大家的反馈，比较合适的办法可能是：
- 以已出版的类书为第一信源，以维基为第二信源，尽量不采用其它网站的信息。
- 给出的信息一定要标明出处。
- 结构化的信息尽量采用脚本处理的方式提取。其次使用AI 总结。AI总结时强制要求从信源总结而不是用自己的大模型数据。
当然这个过程中肯定还有很多错误，需要人工订正。我会尽量少地显示其他信息，把主要精力放在文字、图片资源的搜集上，以及版本和作品之间连接。我也不想重做一个维基百科。
2026年01月28日 10:12 @203766 回复 ⚑举报　

夢夢
游客
如果收录范围是所有已经数字化的书目的话，那这个工作量相当大了。
2026年01月28日 10:35 @203768 回复 ⚑举报　

黍离
游客
仅论书目的话，籍合网的书目数据库（收录最多，几百种书目），中华典籍总目（丛书综录），上海图书馆循证平台（善本书目），古籍保护网（珍贵名录，古籍普查），光这些数字化的书目，工作量很大，而且有版权问题。
2026年01月28日 10:41 @203769 回复 ⚑举报　

黍离
游客
至于找图片资源，工作量也很大。除了全球汉籍系统，较为方便。其他网站、全库，比如上海、南图（无水印）、天一阁、浙江（维基共享）等等，要么在对应官网（检索方法不完全一样，比如内阁文库），要么是在全库，想要一一对应并且核实，工作量也非常大。
2026年01月28日 11:33 @203772 回复 ⚑举报　

崇鹂
游客
我曾经有过这种设想，但估计成本下来，应该是国家性工程。
如果再往大了说，全国各地有很多孤本根本就没登录到网上，甚至是近年才在民间拍卖、公馆尘封的书库发现的，乃至日本欧美大量市县小镇级别的图书馆，都有中国的稀善古籍，基于这种考量后续的维护可能是无休止。除非一开始就有手眼通天的人，破除所有学阀壁垒，集全国之力主持这项工作。
限于个人能力，一个比较简便的方案是，写程序先把《中国古籍总目》《四库总目》转录进去（网上有Excel等版本），足够支撑一个小型的古籍检索数据库。虽然《总目》最大的问题是不够总，一旦到了我熟悉的门类就会发现他不全，但也比较满足日用了
2026年01月28日 14:51 @203788 回复 ⚑举报　

黍离
游客
@崇鹂 #203772
目前这两个都有了。四库总目不用说，日本“全国汉籍”，甚至微信读书都可以全文检索。中国古籍总目，在国家典籍智慧化平台，也可以全文检索。
2026年01月28日 14:52 @203789 回复 ⚑举报　

黍离
游客
@黍离 #203788
打错了，是国家古籍数字化资源总平台
2026年01月28日 19:24 @203795 回复 ⚑举报　

崇鹂
游客
@黍离 #203789
楼主的主要设想是古籍信息，包括版本对比说明，我关注的部分是基础录入，就是说最基础的古籍书名都成问题，只要一设想到这个地步，就知道对个人来说边界是无尽。
不管怎么说，网站至少能将《总目》《四库》的书名都录入，才有了对比完善的基础（总目似乎是17万种，word文档大概5MB，虽然沧海一粟但主体够用）。这些都有公开免费可抓取的数据，可以快速把框架搭建起来，后续就是漫长的众人建设了。现在网上涉及古籍的信息，基本都是海量重复的垃圾信息，这就是楼主的痛点，但也是最漫长困难的地方，有时候一部书就是一篇博士论文
题外话，如果有人能搞到国家图书馆的古籍总目，能碾压当前国内外一切数据库，请有关朋友能提供有关消息。我现在用国学迷的古籍检索，虽然海量错误信息，但因为书足够多，也已经不是国内外任何书目检索系统可比的了。至于精确的基础信息，恐怕是网络世界最宝贵的东西。有时也不禁想，恐怕图书馆自己都搞不清有什么书，“摸清家底”的号召出来那么多年，太多贫穷的地方根本无力统计清楚，目前只是限于各地自发统计、有限报告、新建文件夹的程度而已，国外限于政策项目，别人也遮遮掩掩，互联网之狭窄信息之有限常常让我深感无力
2026年01月29日 15:23 @203836 回复 ⚑举报　

黍离
游客
@崇鹂 #203795
光书名问题，就很难了。先不说有没有著录条例，是否规范著录。古籍普查之前，各图书馆出版的书目不多，且大多是善本书目，普通古籍书目很少。大量普通古籍没有清点、统计、著录。哪怕是国家图书馆，普通古籍总目，也只出了五卷（原计划十五卷），上海图书馆的普通古籍，长期以来，仅抄就一套卡片让读者检索。古籍普查后，情况有改变，但仍有很多书目没有上网。
这么浩大的工程，也只能国家来牵头。之前的中国古籍善本书目，是周总理的指示，尚且差点烂尾。如今技术条件虽然好了，但重视程度，不如善本书目那时。至于个人，只能先搭起框架，先用着再说。
2026年02月01日 04:28 @204000 回复 ⚑举报　
谢耳朵
游客
根据大家的反馈，我的计划调整为
- 先试着录入汉书艺文志、四库全书目录、以及一些近代的目录，有一个基本的框架。
- 试着扫描维基文库，以及一些大的图书馆，链接文字、图片资源。
根据效果再决定下一步的计划。有所进展之后我会在技术交流区分享。
2026年02月09日 18:31 @204547 回复 ⚑举报　

世真
游客
做目录说简单也简单，说难也难，感觉全國古籍普查登記基本數據庫的目录可以先做进去，毕竟是现成的，如果有需要我也可以提供一些，但是目前来看，你这个网站响应不是很好（至少在我这打开极慢）
2026年02月10日 10:12 @204583 回复 ⚑举报　

h
游客
各位，请问全球汉籍影像开放集成系统是不是打不开了？
2026年02月12日 01:47 @204688 回复 ⚑举报　

谢耳朵
游客
@世真 #204547
我现在正在整理四库全书目录，汉书艺文志等，先搭一个框架。然后准备通过这些书目搜索维基文库、internet archive、国内外图书馆等资源做链接。
目前还没有备案，所以服务器在海外，访问会不太稳定。有些眉目后我会申请备案，部署一些国内的节点。
2026年02月19日 17:04 @205182 回复 ⚑举报　

菩提
游客
典津 - 全球汉籍影像开放集成系统 AI驱动版
guji.cckb.cn/
这个网站已经实现这样的效果了？
2026年03月14日 06:05 @206978 回复 ⚑举报　

谢耳朵
游客
@菩提 #205182
这个网站确实做的已经很好了，但是只收录了图书馆的资源。缺少维基文库、维基共享、Internet Archive等境外网站。也不包括识典古籍、书格这些网站的内容。毕竟是官方学术机构做的，大概不好收录这些。
另外搜索一本书经常弹出几十个结果，多数是价值不大的版本，难以挑选。
我也希望问问大家有没有这个网站满足不了的需求。
2026年03月14日 11:38 @207014 回复 ⚑举报　

庚明雨
游客
索引网站，看到过类似的创意：guji.cckb.cn/category-browse
史上首个AI编订古籍版本目录，基于全球汉籍版本循证AI智能体自动生成，任务持续运行中，目前进度：8.2%
作者
帖子

正在查看 29 个帖子：1-29 (共 29 个帖子)

正在查看 29 个帖子：1-29 (共 29 个帖子)

上传图片

拖拽或点击选择图片（最多五张）

回复至：【意见征集】做一个古籍信息、资源索引的网站

您的信息：

昵称/网名（必填）：

电子邮箱地址（不会被公开）（必填）：

发帖/回帖前，请了解相关版规：

0，邮箱地址尽量真实有效，随意填写的可能会被系统误判为垃圾内容。
1，不要开书单。单个帖子尽量发布一种书籍需求。
2，在搜索不到相关主题的情况下，尽量发新帖（发帖标题最好带上书名）。不要在他人帖子中回复某种书籍需要。
3，发帖提问标题尽量简单明了。发帖内容不要太过简略，请对书籍内容、版本或作者作简要说明。
4，出版于1976年以后的资源需求或分享将会被清理删除。