正在查看 5 个帖子:1-5 (共 5 个帖子)
  • 作者
    帖子
  • @205340 回复 ⚑举报 

    Source
    游客

    发现如果有元数据使用BOOKGET下载会更方便,所以利用这段时间搓了个脚本,花了些时间爬取了国立公文图书馆(https://www.digital.archives.go.jp)网站的文件元数据,大致的文件分类和我所测试的可用程度如下:
    1.内閣文庫(古籍):有效条目约558000个,几乎所有链接都可用(表末西洋古籍除外),且可以使用bookget正常下载(.jp2)

    2.法人文書:有效条目约24000个,只有少部分链接可用,且都无法使用bookget下载

    3.司法文書:有效条目约74000个,极少链接可用,都无法使用bookget下载

    4.寄贈・寄託文書:有效条目约25000个,基本无链接可用,都无法使用bookget下载
    对于书格而言,我觉得只需要内阁文库的数据就够了,全是古籍,且恰好链接基本都可以使用。文件2-4类别是我在整理途中发现的,其实看类别我就知道链接不大可能公开,更不用说使用了,或许是由于网站的文件结构原因或本身的权限原因,导致只有名称,分类而链接不可用,但还是觉得应该发一下,毕竟爬都爬了,万一有人能用上呢

    除了以上4种文件分类外,还有一种,也是文件条目最多的(有效条目达到了约2100000条),为行政文書,这东西更不大可能有用了,而且因为条目过多,网站本身或许也有保护机制,所以只爬取到约50%就失败了,因为没用,所以也就不上传了

    下载链接在这:
    对于大陆地区:蓝奏云sourcepoint.lanzoue.com/b00hrk51mj  密码:8rzu

     123云盘www.123865.com/s/ehcZjv-a1GUh

    对于其他地区:GoogleDrivedrive.google.com/drive...drive_link

    本人是业余而非专业,如果有哪些地方完成的不够好欢迎批评
    邮箱在这:source_point_rfpl@163.com

    @205352 回复 ⚑举报 

    向者
    游客

    如果另外提供一个包含作者与版本的总目就好了,否则选选性下载就比较麻烦,比如,康熙字典有近60个版本,细目无法鉴别出是哪个版本。

    @205354 回复 ⚑举报 

    Gravity
    游客

    @向者#205352 很好的提议,下次爬取的时候我可能会尝试一下更多的信息,并且我打算约每半年整理一次此类元数据

    @205356 回复 ⚑举报 

    向者
    游客

    @Gravity #205354

    那些表倒不需要重新扒,毕竟很费时间,因为这些表只用于工具自动下载,且有版本编号,只需另建一个版本信息表就可以搜编号对应下载。其实我也有一个汉籍总表,不过有些编号乱了,也就相当于废了。我没有阁下那么高超的技术,是在搜索→内阁文库→簿册→每页显示项数,然后手工一页页复制,每页显示100条,要复制153次,太麻烦了。这个应该可以用批量下载网页转txt来实现,可惜咱对技术一窍不通。

    @205362 回复 ⚑举报 

    Gravity
    游客

    @向者 #205356

    主要内阁文库大概每一年都有一次集中更新(大概三月份)量还挺大,主要内阁文库的文件质量也是我看过的众多的古籍平台里最好的那一批了,网页设计也比较友好,没什么门槛,所以我觉得进行一定程度的二次开发还挺有必要的

正在查看 5 个帖子:1-5 (共 5 个帖子)
正在查看 5 个帖子:1-5 (共 5 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:国立公文图书馆元数据
您的信息:



发帖/回帖前,请了解相关版规

0,邮箱地址尽量真实有效,随意填写的可能会被系统误判为垃圾内容。
1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1976年以后的资源需求或分享将会被清理删除。