正在查看 1 个帖子:1-1 (共 1 个帖子)
  • 作者
    帖子
  • @171032 回复 ⚑举报 

    崇鹂
    游客

    一、明清实录数据库(https://sillok.history.go.kr/mc/main.do)

    这个库应该是跟台湾那边合作的:

    《明实录》图片用的疑似1962年台湾的汇印本,文字不确定是什么版本。

    《清实录》图片用的是伪满本(详见本站此前帖子),文字不确定是什么版本。

    我在帖子里也发了,《清实录》的TXT文本,但都是网络资源了,《明实录》我有影本,但也尚未收集TXT文本。可能该数据库的TXT文本要较一般网络资源正确,所以希望能有大佬把文本薅下来。

     

    二、承政院日记(https://sjw.history.go.kr/main.do)

    此书是李氏朝鲜的政府档案汇录,现存大概从1623-1894-1910年,约3243册、272年(百度百科)。

    从《承政院日记》抄录我国旧史的工作,似乎至今未有人完成,只是清史委员会做了一点,抓取这批TXT文本,可能有用处。

    例如:

    在数据库检索“皇帝”二字,立即检索到我国历史。

    搜狗截图20250331123251

    图示↑:左上为“朝鲜仁祖3年4月29日”、“1625年天启五年”。朝鲜李廷龟等朝臣的启奏,涉及“毛都督”“魏忠显”“泰昌皇帝”的历史。

    图示↑:右上为“直达原文”,点击后发现原文纸篇幅较小,一般要翻动几页才能到相应文字。

    搜狗截图20250331124418

    查看原文可以发现,朝鲜人确实就是写作“忠顯”。

    这个数据库的综合使用体验:

    1、检索比较方便,能够直接检索到达有关文字,点击右上可读原文,但由于网络和定位原因,可能需要翻动几页慢慢查找,比较痛苦。

    2、朝鲜人多用读音转述,对于人名具体用字未必准确,如“魏忠贤”作“魏忠显”,可能在某一瞬间识读困难。

    3、原本,字很恶劣潦草,应该还是数据库好用,但是原本的避讳格式,是将来摘录相关文献尤须注意的。将来可能还是要保留空格。

    4、朝鲜人的年号、人名、官职、机构,比较陌生,文本还比较口语省略,将来还是需要朝鲜史专家去参与编写。

    但目前抓取该数据库的文本,还是很有价值的,起码防止将来网站崩了。

     

    三、朝鲜王朝实录(https://sillok.history.go.kr/main/main.do)

    为1392-1863年,朝鲜宫廷的文献记录。

    前辈学者吴晗编著《朝鲜李朝实录中的中国史料》,为海外中国史的重要著作,但是也有待完善了,此后也似乎尚未有人进一步去完善。

    这个数据库,正页是谚文,不知道汉字页怎么调。我是点击阅读原本,才把汉字页调出来。他的文本对照功能,要比承政院日记的要完善很多,可能是因为原本是刻本,文字比较规整。

    搜狗截图20250331125921


    综上,这几个数据库的文档还是很有抓取价值的,至少比原书好用。不过抓取也只是因为该网站很混乱跳脱,甚至有可能某一天崩掉。一般情况,就直接在数据库检索了。甚至将来在《承政院日记》《朝鲜王朝实录》等朝韩地区古文献里,进一步摘编中国史料,更高效有趣,不过太冷门了。

正在查看 1 个帖子:1-1 (共 1 个帖子)
正在查看 1 个帖子:1-1 (共 1 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:请问各位大佬韩国《明清实录》《承政院日记》《朝鲜王朝实录》三个数据库的文本可否抓取?
您的信息:



发帖/回帖前,请了解相关版规

0,邮箱地址尽量真实有效,随意填写的可能会被系统误判为垃圾内容。
1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1975年以后的资源需求或分享将会被清理删除。