- 作者帖子
望月游客发现黑白化后,pdf文件更清晰了,于是下载了mybox,但是不会用。
求教pdf黑白化,mybox不会用,好像没有直接黑白化pdf文件的选项,难道要把pdf转成图片?
或者各位谁有比mybox更好的软件?
先谢过。
望月游客摸索中,请教怎么知道pdf的默认的图片格式?
xiaopengyou游客笨方法試試
先用pdf补丁丁無損導出圖片,再用老馬軟件化成黑白。
搜索交流區有這2個軟件
望月游客mybox黑白化已經會了,就是不知道文件格式和密度這些不同參數有什麼不同。
望月游客試了下,選擇了tif格式,這個格式體積最小,ico壓縮出來沒法看
赤霄游客从我处理过的书来看,黑白化会遇到的问题比较多,比如两三个吉的文件,你用补丁丁导图片往往是不会成功的,一个吉的导灰度300dpi是可以实现的,处理时不想要红字部分要原色导出,当然你可以拆分成几百兆的,那就没都什么压力,比较大的可以使用acrobat导出,jpg不成功或者较慢时可以选择jp2,但是使用comicenhancer处理后还是会变成几兆一张,可以对图片进行二次操作,一般就是一百多kb了,合并文件后还可以用acrobat再压缩,如果是要保证印刷质量300-600dpi,文件在几十至几百兆就很正常。
望月游客@赤霄 #142331
谢谢,dpi我还不知道怎么选,用了默认的96,看了质量还可以。用大了担心文件太大
小透明游客个人用 mybox 二极化还是未曾先生教的参数,21年的回答简略,19年的回答详细,OTSU算法,文件格式是tif,色彩空间是黑白色,压缩类型是 LZW,色彩通道-删除,(抖动处理,质量100%)
之后探索了一段时间,处理了一些文件,因为当时书格黑白版文件大多不提供,所以要看书就自己摸索。
偶后发现,有些文件MyBox是没法处理的,文件能打开,但一处理就报错,百思不得其解,拦住我好长时间,直到我把Python学了,就用fitz库 批量提取pdf的源文件(当时文件是陆放翁全集,受到张英的 聪训斋语的推崇),这才发现原因是 图片的格式是jpx,关于这个网上也没多少资料,但又非常常见,后面我用python探索 图片去水印的时候,又从新处理了很多以前没打算处理的文件,发现都是jpx,PIL库可以转换为jpg,但体积会大不少(我的经验是3倍左右),这方面还有待研究。
经过这么一遭,mybox就再也不用了,因为方方面面的原因,1 知道了老马系列软件,(个人那时不喜欢pdf,偏爱读epub的书(epub 我也会做),还在读书园地和老马争论,争了之后没多久,发现了pdf的好处。。) 2 电脑和手机存储都 不值钱,二极化处理的书籍 没法入眼了,虽然体积小,有条件还是灰度的好,现在一个G的文件 扔手机里看,一点压力没有 3 mybox的软件 逻辑很奇怪,还会占用很多内存,还叫用户选择,处理的时候 还会打开pdf文件,标签页面很无厘头,选择页码 要懂-1 什么意思,这就是和 微软家的 Excel类似,想隐藏掉 编程的痕迹,却搞得比编程还复杂。4 就是之前用python 探索了去水印,虽然要自己输入参数,可想看的书也没多少,几本很快就处理完了。(如果任务多,再搞一个 不必输入参数,自己会学习的版本)。
最后,解释下上面的,tif 之所以体积小,因为这个格式支持透明通道(即无色没信息)存储的少,自然体积小。DPI是 dot per inch (每英寸有几个点的意思) 实在想知道效果,可以去photshop设置,设置好后,把图片放到100% 就是效果,想要放大就屏幕截图 来放大。(ps 是可以利用这个,对应现实的A4纸大小的)
当然,GIMP,PS 本身也是支持批量化处理的,,之前用的是 老马的ComicEnhancerPro。
望月游客@小透明 #142418
写得很详细,谢谢。
未曾管理员@小透明 #142418
提取pdf的图片,建议使用PDF补丁丁,无损提取
朝游客acrobat导出图片,把图片导进ae,去色,再ae导出图片,导进acrobat合并成pdf。整个过程五分钟都不要
众生游客@小透明 #142418
你好,看到您说:二极化处理的书籍没法入眼了,虽然体积小,有条件还是灰度的好
方便具体解释一下这是什么原因吗?
发现近年来那些扫描版PDF格式的现代书籍,多采用的是灰度扫描。而在阅读过程中,感觉如果将灰度转换成黑白色,可能会更清晰一些。
在不考虑文件大小的前提下,只从视觉角度出发,您认为是黑白色好,还是灰色好?
小透明游客@众生 #147873
这个问题 前面写回答的时候,怕累赘 就一笔带过了,很高兴还有人对技术细节感兴趣。
看下面这张图
最近没有研究图像,随便找的一张截图
左边是原图,右边是极化处理的,且还没有达到二极化的程度(保留有20个像素亮度级别)
很明显能看出左边有笔迹轻重的变化,有些字比如正上方的“風” 底下是偏长的,这是写字的人连着写的原因。
还有其他的印章,文字中间的分割线(上图 转灰色图已经丢掉了),还有古人的读书书跋,这些几乎都是灰色的为主。不可能找到完美的二极化方案。
个人认为,看古籍的读者,一般不会仅仅只是查阅资料,写论文,欣赏文字的风格,体会古书的味道,必然是其中不可或缺的。(比如个人之前看得,通鉴灰度的元刻明修本宋版,和御批资治通鉴纲目对比,明显感觉到 宋版的字体更加圆融,矮润)
---分割线---
关于第二个问题,扫描版PDF格式的现代书籍,转换成二级化黑白会更清晰。
你的感觉没有错,现代书籍的印刷和古籍不一样,它的笔画是实打实的,机器的下压力 或喷墨力道是精确的。这样的话 你看到的黑色的变化,往往不是字体本身颜色的变化,而是
1 灯光不均匀,曝光靠上,纸面蒙尘埃这种物理问题 ,
2 图片格式压缩 的涂抹痕迹。
在上图(随便找的扫描书籍),放大看 文字周围有一圈"影子",这就是jpg的压缩算法导致的。
你如果加以二极化处理,再保存成透明通道的如png,tif, 这些异色会消失,且灰色的部分也会沉淀下来黑色(这和古籍不一样,因为印刷字体非常规整,更容易调出相对完美的方案)
但是,一般扫描版的书籍,都是因为有图片的存在,才有人去看,要是没有插图,又有价值的,往往都会被热心读者做成其他格式保存的。所以这也是尴尬的地方。
最后,你的问题是,不考虑文件大小,灰度图版 还是 二极黑白好。
主要是看你自己要的是什么,文件大小,文字笔画,还是单纯查资料,信息搜索。要说明下的是,自己不制作过书籍是体会不到的:任何的书籍处理,都是需要经过取舍的(英文叫 trade-off),普通的灰色版书,也是处理者用心处理过的,一些干扰的部分后比如 水印,书籍纸张背景(去掉这个,也会带走部分的分隔线),印章等。
其实也不必纠结这些,读书对自己有帮助,就值得。可以自己去学习怎么制作和修改书籍的技术细节,学完后,你就能综合技术,成本,自己所需 找出最优路径,不然有很多 我能用的好方法,你未必用的了(比如深度学习 处理灰度图像;我编脚本,批处理图片,不必手动操作,你需要很多时间的话 可能就没法采纳了)
众生游客- 作者帖子
正在查看 14 个帖子:1-14 (共 14 个帖子)
正在查看 14 个帖子:1-14 (共 14 个帖子)
正在查看 14 个帖子:1-14 (共 14 个帖子)