- 作者帖子
正音悉达游客台故有些资源是有高清IIIF可以查看的,但是用dezoomify-rs近期总是报错。
我用的命令行是
dezoomify-rs -l -H "Referer:https://digitalarchive.npm.gov.tw/Painting/Content?pid=155&Dept=P" --max-idle-per-host 3 --retries 20 --retry-delay 2s --timeout 20s --connect-timeout 20s https://iiifod2.npm.gov.tw/iiif/2/K2A%2FK2A001269N000000004PAA/info.json
其中资源页面的地址是:https://digitalarchive.npm.gov.tw/Painting/Content?pid=155&Dept=P
IIIF资源通过dezoomify嗅探到的地址是https://iiifod2.npm.gov.tw/iiif/2/K2A%2FK2A001269N000000004PAA/info.json
报错有两种:
一种是红色的,直接报错无法探寻到资源。
一种是下载到10到20个碎片后,服务器拒绝访问。
有以下心得:
1、 用台湾的IP,能够更容易抓取到完整的资源,但是也完全凭运气。美国的IP有些也可以。
2、 凌晨三点多到六点的时间是最容易的,但是也不是天天都可以。有的时候可以很顺利地抓取。
想问问各位朋友及@未曾 先生,针对台故,dezoomify-rs是否有其他更好的参数?针对IIIF资源,有没有更好的取得办法?
未曾管理员他们服务器不稳定,所以方法不是主要原因。看运气吧~
正音悉达游客@未曾 #35341
好的,谢谢未曾先生答疑
正音悉达游客最近成功抓取了一批材料,说一下心得体会。希望给有同样需求的朋友一些帮助。
1、确认是台故的服务器有一个“熔断”机制,就是某一件藏品,如果在一定时间内被请求多次,服务器就会熔断,有的时候只是拒绝这一件藏品,所以这个时候换一个藏品请求就可以了,但是有的时候是整个服务器拒绝访问,那不管是换IP还是换藏品都没有用。
2、所以如果使用dezoomify-rs的命令行,要在前面加一个延时指令,我目前测定的是最好放到300秒,如果是凌晨这样的冷淡时间也可以放到150。命令如下
#: TIMEOUT -T 300 & dezoomify-rs -l ~~~
3、https://dezoomify.ophir.dev/这个网页如果能够掌握节奏,也非常好用,这几天我抓了大概300多张图片,基本上是通过按键精灵脚本加这个网页获取的。虽然慢好在稳定。
简而言之就是要耐心,下载完一张图片等待五分钟再下下一张,这样基本上不需要更换IP,也不会被ban。
PS. 台故的藏品编号和IIIF地址是非常有趣的,有一些显而易见的规律,如果仔细研究加之一定的推敲,是可以取得一些并未公布的资源的。
未曾管理员@正音悉达 #35524
感谢先生分享实战经验
limin游客
正音悉达游客
limin游客
limin游客digitalarchive.npm.gov.tw/Antiq...38;Dept=U#
您好這個如何探寻到资源到資源?請求幫助。
正音悉达游客@limin #35760
这种不带IIIF标志的,大概率是没有高清的图。
有的通过推导馆藏ID号的规律,可以试着碰碰运气能不能抓取到,有些极个别情况是IIIF服务器里有高清的图,但是web网页上不会展示、
你发的这个没有
兰亭幽梦游客台北故宫放出的图已足够多,画类已放的差不多了,书法放的少,特别是手札,
limin游客@正音悉达 #35769
感謝您的回復。敬意
老刘飞天游客
muren游客亲测有效:
1.挂台湾代理
2.用IIIF Viewer打开图片网页,放大图片,并用F12或开发者模式检查图片碎片的地址,择任意碎片复制地址。
3.复制碎片到https://dezoomify.ophir.dev/,解析之。
蓝色吉他手游客@正音悉达 #35769
蓝色吉他手游客@muren #37018
求微信谢谢!!!
dxx游客
正音悉达游客
dxx游客@正音悉达 #39351
谢谢你!
我来了游客请问未曾先生,比较大的图片dezoomify加载完成之后,在另存为的时候,到这谷歌浏览器闪退,这个问题有办法解决吗?感谢,感谢😁
我来了游客@未曾
我来了游客就是说一个图片尺寸比较大,在网页上完整显示之后,接下来我要做的就是图片另存为或者用复制的办法粘贴到ps里面,这时候就会跳出一个窗口,提示出错,然后整个浏览器就会闪退,再次牵动浏览器的时候,它会问是否恢复上次没有正常关闭的网页?然后导致这个图片保存失败,尝试了多次都没有解决,请问未曾先生,可有办法。👍 👍 👍 👍
fans游客@正音悉达 #35769
查看了您的贴子,试了文本界面的下载,linux下用dezoomify-rs, 可以组合但文件下完后黑色一片,无法查看,dos下白天没有一次成功过,但用网页的模式,却有收获,但几天日夜兼程,也仅仅下到几套院本套图(5、60张图),效率极低,并且还得熬夜,能否提示一下,我的邮箱:pzh2k2k@163.com,谢谢!
镜像之美游客@muren #37018
大侠,能给个台湾代理吗?谢谢!
侬语游客
聿青游客@正音悉达 #39351 萬分感謝您的分享!!!
fans游客@正音悉达 #35769
你好正音悉达,按照上面的提示的命令无法成功下载,能否提示一下现在可以成功下载的在Linux环境下或dos下的dezoomify-rs 的命令行,谢谢!
张飞白游客
fans游客所有从网页获取的分段图片的分辨率都是72,这是正常的?从dos 或linux下的文件的分辨率也是72?(即便72但图片质量很好)请朋友们解答,谢谢!
侬语游客@张飞白 #42652
谢谢飞白兄!
白木游客@正音悉达 #35524
我有个拼图可能也是遇到了熔断机制的问题。
emuseum.nich.go.jp/iiifa...ifest.json
我尝试写延迟下载:
TIMEOUT -T 300 & dezoomify-rs -l emuseum.nich.go.jp/iiifa...ifest.json
发现这串代码,是完整的图和图之间延迟。
但如果是碎片图和碎片图之间,延迟下载,不知道代码怎么写呢?
白木游客测试了好多种方式,都失败了。
-H, --header <headers>...
Sets an HTTP header to use on requests. This option can be repeated in order to set multiple headers. You
can use-H "Referer: URL"
where URL is the URL of the website's viewer page in order to let the site think
you come from the legitimate viewer--max-idle-per-host <max-idle-per-host>
Maximum number of idle connections per host allowed at the same time [default: 32]尝试加入参数:
-H "Referer: emuseum.nich.go.jp/ "
--max-idle-per-host 1
均失败了。
出现的问题,就是提示404错误,服务器那边可能是拒绝了访问。但至于为什么拒绝访问,一直没有找到原因。
fans游客@未曾 #35341
注:上面的图的文件大小为:61.5 MB (64,504,033 字节)
所有从dezoomify网页获取的分段图片的分辨率都是72,这是正常的?从dos 或linux下使用dezoomify-rs 命令获取的文件的分辨率也是72?,我想由于文本界面下dezoomify 可以加--compression 0等参数可以得到较大的文件,但不管文件大小好像也是分辨率也是72,因为在文本界面下几乎没有一次成功下载。能否提示一下现在可以成功下载的在Linux环境下或dos下的dezoomify-rs 的命令行,(即便72但图片质量很好)故请未曾兄解答,谢谢!
未曾管理员
fans游客
未曾管理员@fans #42716
直接粘贴json文件到dezoomify-rs即可
或(我自己用的)好像效果也不理想
dezoomify-rs --accept-invalid-certs --compression 10 -l -r 5 -H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36" -H "Referer: https://digitalarchive.npm.gov.tw/" JSON文件地址
fans游客@未曾 #42717
我获得的都是采用第一种方法,非常感谢您的分享!
付游客
limin游客台北故宫IIIF已经无法预览?
limin游客@fans #42719
台北故宫IIIF网页几乎打不开,问问大家这几天还能下载吗?
digitalarchive.npm.gov.tw/Antiq...038;Dept=U
提示 发生错误 TypeError: Failed to fetch
fans游客@limin #48162
能下,但非常难,有的文件得几个小时才可以下到。
兰亭幽梦游客@fans #48177
是那一种方法,我咋弄都不行 ,你能否详细说一下,
fans游客@兰亭幽梦 #48179
方法未曾兄已经说的够多了,最最关键是能够连接其网站的代理。没有稳定的连接,一切就是海上蜃楼 。
limin游客@正音悉达 #35323
您有下载到器物 玉器的大图吗?可以交换分享互通有无。非常感谢您🙏。
- 作者帖子
正在查看 44 个帖子:1-44 (共 44 个帖子)
正在查看 44 个帖子:1-44 (共 44 个帖子)
正在查看 44 个帖子:1-44 (共 44 个帖子)