- 作者帖子
朱元璋游客我平时有些书籍ocr识别的需求,有简体横排,也有繁体手写,但需求量都不大,一般排印本都用ABBYY FineReader,准确率也就那样吧,好处是不识别的会有图片,会保留格式。繁体识别的需求量更少,通常是几页十几页纸,手打为多,因为识别后校对更费力。最近有几页文献,就是了一下识别,百度搜索出来两种,一种是看典古籍,一种是古籍酷,下边是选取了一条实例:

看典古籍识别:
的珠寳他們無寳前来赴會豈不有慢君之罪將他們殺之江山其不歸成一統秦白丞相高才命何人假設周天子御詔、丑自甘英嘴能舌辯可以前去臣還有絶虎之計與二千歲辨理就是神人也難知覺泰白全伏丞相御弟待孤修書排子曰侍自宣甘英上殿侍應甘上白領旨秦邦管爵賞上殿見君王、臣甘英見駕愿大王千歲威日平身甘白千千歲宣臣上殿有何國事秦白孤意欲並吞列國有全帛一谷書信一封命你前去到紅雀山買動梆展雄呌他奪重王侯殊寳囘來交景甘白臣領㫖全憑三寸舌、打動展雄心
古籍酷识别:
的珠寳他們𭴾寳前来赴㑹豈不有慢君之罪
將他們殺之江山其不𡚖成一統
秦白
丞相髙才
命何人假設周天子御詔
丑白
甘英嘴能舌辯
可以前去臣𮟃有絶虎之計與二千𡻕辦理就
是神人也難知𮗜
秦白
全伏丞相御弟待孤修書
排子内侍白
宣甘英上殿
侍應甘上白
領㫖秦邦管爵
賞上殿見君王
臣
甘英見駕愿大王千嵗
秦白
平
身
甘白
千千
嵗宣臣上殿有何國事
秦白
孤意欲
並吞列國有金帛一分書信一封命你前去到紅
雀山買動桞展雄呌他奪重王侯珠寳回來
交㫖
甘白
臣領㫖全憑三寸舌打動展雄心
下
秦白
丞相𢓦弟辦理絶虎之計待孤修下御詔在古籍酷我没注册,用的是单页识别,他似乎是按表格识别的,但显示的是txt,所以出来就是一长条的效果。
对比一下,肉眼可见,看典古籍的错误较多,古籍酷没啥错误。看典古籍还识别丢了一长条的字——我用看典古籍识别别的图片和PDF时候也发现他有识别盲区,有长串丢字的现象,比较明显。古籍酷没有丢字现象。
古籍酷保留了原始字形,比如“𡚖”“桞”,看典是通用字形,不过这对我而言没啥影响,而且原始字形还影响我日常检索,通用字形更好。古籍酷这种保留原始字形的缺点是有些字形不能很好显示,所以就显示成了□,要一个个找出来改正,比较费时费力。
综上,如果强调正确率,推荐古籍酷。如果要识别的版面比较复杂,古籍酷这种表格识别,txt显示会让你调整版面变得工作量巨大,劳神费力。但我没注册,不能用古籍酷的大量识别功能和进阶功能,至于注册后啥样,没体验,不知道。
书格AI参与者谢谢您分享的看典古籍和古籍酷OCR实测对比,您的经验对有类似需求的用户很有帮助。
从您的测试结果来看,古籍酷在识别准确率上确实表现更优,尤其是在没有丢字方面表现突出,这对于古籍文献的OCR需求来说非常重要。
关于字形问题,古籍酷保留原始字形,虽然在某些情况下会导致显示方块字或影响日常检索,但对于古籍研究者来说,保留原文信息可能更有价值。看典古籍使用通用字形则更方便日常使用和检索,这确实是一个不同需求下的取舍。
您提到古籍酷的表格识别和TXT输出可能在处理复杂版面时增加后期排版工作量,这确实是需要注意的一点。鉴于您是未注册状态下进行的单页识别,如果需求量不大,建议您可以尝试注册古籍酷,体验其批量识别和高级功能,看看是否能更好地解决版面处理问题。
对于繁体手写和特殊字形的古籍文献识别,目前没有完美的OCR方案,通常都需要结合不同工具的优点进行识别,并投入一定的精力进行人工校对。
(以上内容由Gemini AI自动答复,仅供参考!)
- 作者帖子
正在查看 2 个帖子:1-2 (共 2 个帖子)
正在查看 2 个帖子:1-2 (共 2 个帖子)
正在查看 2 个帖子:1-2 (共 2 个帖子)


