- 作者帖子
未名游客bookget 似乎不行。
举个例子,我准备下载 水浒120回本 www.loc.gov/item/75835917/ 这个看起来比内阁文库等网站的印刷效果好一些(断版、磨损的情况稍好一些)。
网页上,把此书分为 [ Preface/Table of Contents ] 、 [ Outline 1 ]、[ Outline 2 ]、[ Outline 3 ]、[ Juan 1 ]、[ Juan 2 ] 直到 [ Juan 120 ]。
我的想法是 探测到大图的 网址,再批量下载。
[ Preface/Table of Contents ] 里共11图,
网站本身是可以 下载单叶图的。
选择 download JPEG(3378*2944px) 这个分辨率后,
浏览器就打开单叶图了。通过地址栏可以看到网址,这11叶是:
tile.loc.gov/image...efault.jpg
tile.loc.gov/image...efault.jpg
tile.loc.gov/image...efault.jpg
tile.loc.gov/image...efault.jpg
tile.loc.gov/image...efault.jpg
tile.loc.gov/image...efault.jpg
tile.loc.gov/image...efault.jpg
tile.loc.gov/image...efault.jpg
tile.loc.gov/image...efault.jpg
tile.loc.gov/image...efault.jpg
tile.loc.gov/image...efault.jpg变化的就是full 前面的那一串数字,有规律 00001a, 01b02a, 02b03a 直到 10b11a , 现在问题来了。 我用Internet Download Manager 和 Motrix 都无法下载, 提示错误。
把下载工具的user agent 改成 chrome 的( 就是我实际使用的chrome 版本浏览器的user agent ). 下载还是错误。
请问有什么下载工具可以批量下载 美国国会图书馆的这些图片地址??
xiaopengyou游客
崇鹂游客可以搜索交流区,讨论很多了,最好的办法是在外网下,在内网就用:
然后用一些IDM固定命名的工具导入IDM就能按顺序下载了。
我使用过程发现确实下到一半就会开始错误无法下载,应该是限IP,只需把路由器等关掉重启,就能继续下。只是这网站确实麻烦,非必要不去下载这个网站的书籍,如果是单张图片之类的,手动点击,问题不大。
未名游客學習了,謝謝!
Ru_Evan游客@崇鹂 #97438
不用这么麻烦去关路由器,我还是教你们一个浏览器下载方法吧
浏览器安装批量下载插件(多得很,按自己喜好),然后打开一个国会图书馆官网主页(只要主页就行),然后把批量图像链接导入下载插件中开始下载。(你们自己找批量图像链接提取方法哈,书格多得很)
如果每下载一段时间就下载不了,那么只要刷新一下国会图书馆主页就行了,,若还是嫌手动刷新麻烦的话,可以安装一个按键类软件让电脑自动定期刷新国会图书馆主页。
我这边大概2000多本国会图书馆的中文古籍大概电脑自动下载了大约一个礼拜,好像是将近100万张图吧(记不太清楚了)
各位按以上方法若还是不行,可以去微博私信我(平时上班比较忙,晚上才可能有时间,,微博与本账户同名)。。
ygzst游客@xiaopengyou #97437
老师好 请教您 我 原来就是这样下载的。现在这样下载下不了了
未名游客@ygzst #97509
图片类型选 jpeg2000, 勾上“ 不使用CDN” ,然后用 morix 下载。 我是这样成功的。
我这里,选择图片类型jpg 就不行,探出来图片地址,moritx 就下载不了。
只是要找一个 可以查看jpeg2000类型(扩展名.jp2 ) 的图片浏览器。 后面如果为了方便,也可以把jpeg2000格式图片转换为普通的jpg
世真游客有些梯子居然可以批量下,我用梯子不行,应该是找到了一个假梯子
ygzst游客@未名 #97541
谢谢老师。可以下载jp2格式。原来还能下载TIFF格式,现在TIFF格式下载不了。也不知道啥原因。
- 作者帖子
正在查看 9 个帖子:1-9 (共 9 个帖子)
正在查看 9 个帖子:1-9 (共 9 个帖子)
正在查看 9 个帖子:1-9 (共 9 个帖子)