- 作者帖子
Source游客发现如果有元数据使用BOOKGET下载会更方便,所以利用这段时间搓了个脚本,花了些时间爬取了国立公文图书馆(https://www.digital.archives.go.jp)网站的文件元数据,大致的文件分类和我所测试的可用程度如下:
1.内閣文庫(古籍):有效条目约558000个,几乎所有链接都可用(表末西洋古籍除外),且可以使用bookget正常下载(.jp2)2.法人文書:有效条目约24000个,只有少部分链接可用,且都无法使用bookget下载
3.司法文書:有效条目约74000个,极少链接可用,都无法使用bookget下载
4.寄贈・寄託文書:有效条目约25000个,基本无链接可用,都无法使用bookget下载
对于书格而言,我觉得只需要内阁文库的数据就够了,全是古籍,且恰好链接基本都可以使用。文件2-4类别是我在整理途中发现的,其实看类别我就知道链接不大可能公开,更不用说使用了,或许是由于网站的文件结构原因或本身的权限原因,导致只有名称,分类而链接不可用,但还是觉得应该发一下,毕竟爬都爬了,万一有人能用上呢除了以上4种文件分类外,还有一种,也是文件条目最多的(有效条目达到了约2100000条),为行政文書,这东西更不大可能有用了,而且因为条目过多,网站本身或许也有保护机制,所以只爬取到约50%就失败了,因为没用,所以也就不上传了
下载链接在这:
对于大陆地区:蓝奏云:sourcepoint.lanzoue.com/b00hrk51mj 密码:8rzu123云盘:www.123865.com/s/ehcZjv-a1GUh
对于其他地区:GoogleDrive:drive.google.com/drive...drive_link
本人是业余而非专业,如果有哪些地方完成的不够好欢迎批评
邮箱在这:source_point_rfpl@163.com
向者游客如果另外提供一个包含作者与版本的总目就好了,否则选选性下载就比较麻烦,比如,康熙字典有近60个版本,细目无法鉴别出是哪个版本。
Gravity游客@向者#205352 很好的提议,下次爬取的时候我可能会尝试一下更多的信息,并且我打算约每半年整理一次此类元数据
向者游客@Gravity #205354
那些表倒不需要重新扒,毕竟很费时间,因为这些表只用于工具自动下载,且有版本编号,只需另建一个版本信息表就可以搜编号对应下载。其实我也有一个汉籍总表,不过有些编号乱了,也就相当于废了。我没有阁下那么高超的技术,是在搜索→内阁文库→簿册→每页显示项数,然后手工一页页复制,每页显示100条,要复制153次,太麻烦了。这个应该可以用批量下载网页转txt来实现,可惜咱对技术一窍不通。
Gravity游客@向者 #205356
主要内阁文库大概每一年都有一次集中更新(大概三月份)量还挺大,主要内阁文库的文件质量也是我看过的众多的古籍平台里最好的那一批了,网页设计也比较友好,没什么门槛,所以我觉得进行一定程度的二次开发还挺有必要的
- 作者帖子
正在查看 5 个帖子:1-5 (共 5 个帖子)
正在查看 5 个帖子:1-5 (共 5 个帖子)
正在查看 5 个帖子:1-5 (共 5 个帖子)

