正在查看 18 个帖子:1-18 (共 18 个帖子)
  • 作者
    帖子
  • @203739 回复 ⚑举报 

    谢耳朵
    游客

    我最近在搜索红楼梦不同版本的数字资源。这个过程中碰到了很多问题。第一是高清的图片资源很难找,尤其是一些比较冷僻的版本。文字资源就更少,而且都有些错误。第二是即使找到了一些影印本,也很难确定它到底是从哪一个版本而影印来的。网站上的介绍都很模糊而且往往不准确。

    我总是要搜索很多个网站才能够找到高质量的影印本或者文字。有的时候它又会藏在谷歌搜索的后几页,或者论坛的某个回复里。

    所以我萌生了一个想法:是不是可以做一个开源的古籍资源的索引网站。给每一本古籍发一个ID,然后通过自动化的信息收集+社区维护的方式,不断更新和校对它的基本信息、收藏历史、文字图片资源、和其他版本的联系等等。

    我很快做了一个网站验证我的想法,只添加了红楼梦和史记的部分版本:

    1. 网站首页,可以搜索作品、书(具体某一个版本)

    屏幕截图 2026-01-27 101358

    2. 对于某一本书,记录它的基本信息、简短介绍

    屏幕截图 2026-01-27 101538

    3. 在网络上收集文字、图片资源。

    屏幕截图 2026-01-27 101616

    4. 介绍收藏历史、链接到其他版本屏幕截图 2026-01-27 101656

    欢迎试用,但是目前信息很少:https://www.kaiyuanguji.com/book-index

    做出这样的一个网站是容易的,最难的是信息的收集和校对。我计划首先通过爬虫及 AI 的辅助,将几个大型资源网站上的信息都取下来。但是更重要的是后续还需要一个开源社区的不停地像维基百科一样,不停地进行资源补充、核实、信息校对。

    想问问大家:这样的网站,

    • 有没有用?
    • 有没有已经有类似的解决方案?
    • 怎样做才能更好用?
    • 是否有人愿意和我一起来做后续的内容维护?

    欢迎评论和反馈,或者联系我深入探讨:sheldonli.dev [At] gmail.com

    注:目前我所了解到的最接近的就是汉籍影像集成系统(https://guji.wenxianxue.cn/)。它集成了国内外大型图书馆。但仍缺少其他功能和其他网络资源。

    @203744 回复 ⚑举报 

    公子旷
    游客

    有点古籍版百科全书的意思,感觉挺好,需要资料的时候,比在网络检索信息要更直观,加油

    @203748 回复 ⚑举报 

    未曾
    管理员

    @谢耳朵 #203739

    好强的开发者~

    感觉是很实用的系统,如果都是人工处理的也很消耗编辑啊~

    @203749 回复 ⚑举报 

    赤霄
    游客

    想法非常好,也肯定有用,只是找人一起的可能性很小,相信你可以的。

    @203750 回复 ⚑举报 

    赤霄
    游客

    为了减少工作量,建议配台电脑,部署deepseek。

    @203751 回复 ⚑举报 

    谢耳朵
    游客

    肯定要以AI+爬虫为主,人工为辅。目前的这20多本书的基本信息+介绍+收藏历史都是AI生成。但是资源还要手动找,目前AI返回的网址总是错的。

    @203752 回复 ⚑举报 

    zyz
    游客

    想法很好,先搞个目录大纲,然后再依大纲条目补充具体内容

    @203753 回复 ⚑举报 

    ZZL
    游客

    创意很好,古籍版本网

    @203755 回复 ⚑举报 

    未曾
    管理员

    @谢耳朵 #203751

    我个人的一点建议

    技术上、内容校对可以多用AI,内容生成方面还是要慎用AI。

    @203757 回复 ⚑举报 

    公子旷
    游客

    @未曾 #203755

    支持,如果内容上面使用了AI,就我个人来说肯定会放弃这个网站的

    @203759 回复 ⚑举报 

    谢耳朵
    游客

    @未曾 #203755

    确实。我仔细看了我截图的红楼梦甲戌本的AI总结,收藏历史至少有两处错误

    > 从上海地摊购得
    是收藏者后人送来的
    > 上海博物馆斥资400万美元
    应该是80多万

    只是AI即使只有八九成的准确率,也比没有好。人工录入的工作量太大了。但仅靠AI又容易传播错误信息。还需要好好权衡一下。

    @203760 回复 ⚑举报 

    xiaopengyou
    游客

    就小說類而言,

    LZ的創舉是把《中國通俗小說書目》+《增補中國通俗小說書目》+《中國通俗小說總目提要》給整合電腦化+具象實物化了,

    感謝

    @203763 回复 ⚑举报 

    未曾
    管理员

    如果不考虑版权的话。

    可以把沈津老师主编的哈佛燕京图书馆藏中文善本书志整合进去,书籍量够大文本质量也不错

    @203764 回复 ⚑举报 

    谢耳朵
    游客

    综合大家的反馈,比较合适的办法可能是:
    - 以已出版的类书为第一信源,以维基为第二信源,尽量不采用其它网站的信息。
    - 给出的信息一定要标明出处。
    - 结构化的信息尽量采用脚本处理的方式提取。其次使用AI 总结。AI总结时强制要求从信源总结而不是用自己的大模型数据。

    当然这个过程中肯定还有很多错误,需要人工订正。我会尽量少地显示其他信息,把主要精力放在文字、图片资源的搜集上,以及版本和作品之间连接。我也不想重做一个维基百科。

    @203766 回复 ⚑举报 

    夢夢
    游客

    如果收录范围是所有已经数字化的书目的话,那这个工作量相当大了。

    @203768 回复 ⚑举报 

    黍离
    游客

    仅论书目的话,籍合网的书目数据库(收录最多,几百种书目),中华典籍总目(丛书综录),上海图书馆循证平台(善本书目),古籍保护网(珍贵名录,古籍普查),光这些数字化的书目,工作量很大,而且有版权问题。

    @203769 回复 ⚑举报 

    黍离
    游客

    至于找图片资源,工作量也很大。除了全球汉籍系统,较为方便。其他网站、全库,比如上海、南图(无水印)、天一阁、浙江(维基共享)等等,要么在对应官网(检索方法不完全一样,比如内阁文库),要么是在全库,想要一一对应并且核实,工作量也非常大。

    @203772 回复 ⚑举报 

    崇鹂
    游客

    我曾经有过这种设想,但估计成本下来,应该是国家性工程。

    如果再往大了说,全国各地有很多孤本根本就没登录到网上,甚至是近年才在民间拍卖、公馆尘封的书库发现的,乃至日本欧美大量市县小镇级别的图书馆,都有中国的稀善古籍,基于这种考量后续的维护可能是无休止。除非一开始就有手眼通天的人,破除所有学阀壁垒,集全国之力主持这项工作。

    限于个人能力,一个比较简便的方案是,写程序先把《中国古籍总目》《四库总目》转录进去(网上有Excel等版本),足够支撑一个小型的古籍检索数据库。虽然《总目》最大的问题是不够总,一旦到了我熟悉的门类就会发现他不全,但也比较满足日用了

正在查看 18 个帖子:1-18 (共 18 个帖子)
正在查看 18 个帖子:1-18 (共 18 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:【意见征集】做一个古籍信息、资源索引的网站
您的信息:



发帖/回帖前,请了解相关版规

0,邮箱地址尽量真实有效,随意填写的可能会被系统误判为垃圾内容。
1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1976年以后的资源需求或分享将会被清理删除。