- 作者帖子
海鲛NLP游客
未曾管理员
古籍OCR游客这20万页古籍的识别准确率达到97.5%。
阿里巴巴达摩院院长张建锋表示,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,同时,阿里仍将在古籍数字化工作上持续投入人力物力。
何生亮游客求生欲比较强
古籍OCR游客@古籍OCR #23848
补充说明:
97.5%识别率。数据来源:www.xinhuanet.com/book/...955418.htm
新华网:“汉典重光”首批实现海外20万页中文古籍“数字化回归”
之前摘录的时候,没有把出处引用过来。现在把出处引用过来。
本来,如果我本人没有转发,我没有义务去解释,为什么新华网报道的时候,说97.5%的准确率。因为那是新华网记者和项目方的事情。
我既不是写这篇报道的记者,也不是项目方。
但因为我摘录引用了97.5%的这个数据。而又有朋友测试后,发现远没有这么高的识别准确率。
所以我只能说个人解读,97.5%这个数据是怎么得出的。
个人解读仅供参考。
首先,既然权威媒体,在报道的时候,说了97.5%的准确率。我相信他们当时的测试,确实是达到了这个准确率。
但是,后面的人拿自己的本子去测试的时候,却不一定能够达到这个准确率。97.5应该是目前的最高得分。
要注意前面几个字:这 20 万页古籍
97.5%这个识别率,识别的是这20万页古籍。而这套系统,本身数据训练的,也是这20万页古籍。
打比喻就是,一个学生,备考的时候反复练的是这套试卷,结果考试的时候,原封不动还是考这张试卷。那能不拿97.5分嘛。
但如果你给这个学生,一张全新试卷,上面的考题他从来没有学习过,那他当然不可能拿97.5%的高分了。
所以,具体去试的时候,如果你的扫描质量是OK的,扫描清楚,横平竖直的。而你的本子,又恰好和这20万页有很高相似度,那么 理论上应该是会得到高识别率的结果的。
但如果,你的本子,和这20万页相关度差很大,那估计成绩高不了。这题人家都没学过,你不能要求他就会了。
所以这就需要后面大量的调教员。就是去训练这个机器人的。
经过不断训练,以后遇到全新的本子,识别率不说97.5%,达到90%乃至95%问题应该还是不大的。
所以,97.5%要客观看待,他只是报道了一个最高得分。
当然,这97.5%的数据,也绝不是虚假报道。只是他报道的时候,可以是这个角度,也可以那个角度。但选择了这个角度而已。
因为这97.5%建立在一个前提上:这20万页古籍的识别准确率。
他没说,你手上的这个本子,也能达到97.5%的识别率。这是有可能达到的,但必须还要经过大量数据的调教下。
我也只不过是在了解的时候,顺便随手引用资讯而已。
如果论坛可以自己删除自己发的贴子的话,还不如删了算了。
现在这个项目才刚刚开始,也没必要非要捧上天。让项目方踏实练好内功。
等到将来,任何新的本子,一识别都95%以上准确率。硬实力比什么报道都强。
过早报道,也可能成为一种捧杀。所以97.5%和这个贴子,如果没啥必要,不如删除算了。
让项目方有更多时间练好内功。
未曾管理员感谢分享
有人做事总比没人关注的好~
虽然这次的宣传略有浮夸,可能是个半成品,赶着518上线的,但是达摩院这套系统OCR的算法似乎还可以,假以时日定能为古籍的识读带来巨大帮助。
但是,担心的是项目能否持续开发下去~
ml123游客今天看到字节跳动张一鸣卸任的新闻,其中也提到该公司也在开展古籍电子化的公益项目。
古籍OCR游客www.toutiao.com/a6964...1568353526
新华网客户端:
张一鸣卸任字节跳动CEO 联合创始人梁汝波将接任
据了解,字节跳动正在探索教育公益、脑疾病、古籍数字化整理等新的公益项目。“我个人也有些投入,我还有更多想法,希望能更深度参与。”张一鸣在全员信中说。文/本报记者 温婧
来源:北京青年报
裁冰剪雪談笑看吳鈎游客哈哈哈哈哈哈咯。。笑死 。。。
大紧知不知道古籍这种大多是雕版或者手抄的,本来就错字多多,更加不用说那些通假假借了。
更加上,好多字现在可以说是都废弃了的不用的或者是用不到的了。这本来就让人们读起来困难重重了。
然后大紧告诉我说,那个AI识别率百分之九十七?那这岂不是在源文件的基础上又多出了百分之二三的错字率了吗?
这种书还有法看?!
哎吆。。。。老子笑出猪叫了都。。。
- 作者帖子
正在查看 9 个帖子:1-9 (共 9 个帖子)
正在查看 9 个帖子:1-9 (共 9 个帖子)
正在查看 9 个帖子:1-9 (共 9 个帖子)