阿里的“扫地僧”，2年“抄”了20万页古籍

正在查看 9 个帖子：1-9 (共 9 个帖子)

作者
帖子
2021年05月18日 23:46 @23813 回复 ⚑举报　

海鲛NLP
游客
分享一个信息，希望能对丰富资源有帮助。
zhuanlan.zhihu.com/p/373325774
wenyuan.aliyun.com/home
2021年05月18日 23:55 @23814 回复 ⚑举报　

未曾
管理员
@海鲛NLP #23813
感谢分享。
不做评论。
只期待项目能做下去，名副其实
2021年05月19日 20:07 @23848 回复 ⚑举报　

古籍OCR
游客
这20万页古籍的识别准确率达到97.5%。
阿里巴巴达摩院院长张建锋表示，阿里计划将这套技术工具连同古籍数字化平台一并捐赠，交由权威公共机构长期运营，同时，阿里仍将在古籍数字化工作上持续投入人力物力。
2021年05月19日 23:00 @23881 回复 ⚑举报　

何生亮
游客
求生欲比较强
2021年05月20日 10:04 @23903 回复 ⚑举报　

古籍OCR
游客
@古籍OCR #23848
补充说明：
97.5%识别率。数据来源：
www.xinhuanet.com/book/...955418.htm
新华网：“汉典重光”首批实现海外20万页中文古籍“数字化回归”

之前摘录的时候，没有把出处引用过来。现在把出处引用过来。

本来，如果我本人没有转发，我没有义务去解释，为什么新华网报道的时候，说97.5%的准确率。因为那是新华网记者和项目方的事情。
我既不是写这篇报道的记者，也不是项目方。
但因为我摘录引用了97.5%的这个数据。而又有朋友测试后，发现远没有这么高的识别准确率。
所以我只能说个人解读，97.5%这个数据是怎么得出的。

个人解读仅供参考。
首先，既然权威媒体，在报道的时候，说了97.5%的准确率。我相信他们当时的测试，确实是达到了这个准确率。
但是，后面的人拿自己的本子去测试的时候，却不一定能够达到这个准确率。97.5应该是目前的最高得分。
要注意前面几个字：这 20 万页古籍
97.5%这个识别率，识别的是这20万页古籍。而这套系统，本身数据训练的，也是这20万页古籍。
打比喻就是，一个学生，备考的时候反复练的是这套试卷，结果考试的时候，原封不动还是考这张试卷。那能不拿97.5分嘛。
但如果你给这个学生，一张全新试卷，上面的考题他从来没有学习过，那他当然不可能拿97.5%的高分了。
所以，具体去试的时候，如果你的扫描质量是OK的，扫描清楚，横平竖直的。而你的本子，又恰好和这20万页有很高相似度，那么理论上应该是会得到高识别率的结果的。
但如果，你的本子，和这20万页相关度差很大，那估计成绩高不了。这题人家都没学过，你不能要求他就会了。
所以这就需要后面大量的调教员。就是去训练这个机器人的。
经过不断训练，以后遇到全新的本子，识别率不说97.5%，达到90%乃至95%问题应该还是不大的。
所以，97.5%要客观看待，他只是报道了一个最高得分。
当然，这97.5%的数据，也绝不是虚假报道。只是他报道的时候，可以是这个角度，也可以那个角度。但选择了这个角度而已。
因为这97.5%建立在一个前提上：这20万页古籍的识别准确率。
他没说，你手上的这个本子，也能达到97.5%的识别率。这是有可能达到的，但必须还要经过大量数据的调教下。

我也只不过是在了解的时候，顺便随手引用资讯而已。
如果论坛可以自己删除自己发的贴子的话，还不如删了算了。
现在这个项目才刚刚开始，也没必要非要捧上天。让项目方踏实练好内功。
等到将来，任何新的本子，一识别都95%以上准确率。硬实力比什么报道都强。
过早报道，也可能成为一种捧杀。所以97.5%和这个贴子，如果没啥必要，不如删除算了。
让项目方有更多时间练好内功。
2021年05月20日 10:18 @23904 回复 ⚑举报　

未曾
管理员
感谢分享
有人做事总比没人关注的好~
虽然这次的宣传略有浮夸，可能是个半成品，赶着518上线的，但是达摩院这套系统OCR的算法似乎还可以，假以时日定能为古籍的识读带来巨大帮助。
但是，担心的是项目能否持续开发下去~
2021年05月20日 17:52 @23961 回复 ⚑举报　

ml123
游客
今天看到字节跳动张一鸣卸任的新闻，其中也提到该公司也在开展古籍电子化的公益项目。
2021年05月21日 11:43 @24000 回复 ⚑举报　

古籍OCR
游客
www.toutiao.com/a6964...1568353526
新华网客户端：
张一鸣卸任字节跳动CEO 联合创始人梁汝波将接任
据了解，字节跳动正在探索教育公益、脑疾病、古籍数字化整理等新的公益项目。“我个人也有些投入，我还有更多想法，希望能更深度参与。”张一鸣在全员信中说。文/本报记者温婧
来源：北京青年报
2021年05月22日 12:35 @24060 回复 ⚑举报　

裁冰剪雪談笑看吳鈎
游客
哈哈哈哈哈哈咯。。笑死。。。
大紧知不知道古籍这种大多是雕版或者手抄的，本来就错字多多，更加不用说那些通假假借了。
更加上，好多字现在可以说是都废弃了的不用的或者是用不到的了。这本来就让人们读起来困难重重了。
然后大紧告诉我说，那个AI识别率百分之九十七？那这岂不是在源文件的基础上又多出了百分之二三的错字率了吗？
这种书还有法看？！
哎吆。。。。老子笑出猪叫了都。。。
作者
帖子

正在查看 9 个帖子：1-9 (共 9 个帖子)

正在查看 9 个帖子：1-9 (共 9 个帖子)

上传图片

拖拽或点击选择图片（最多五张）

回复至：阿里的“扫地僧”，2年“抄”了20万页古籍

您的信息：

昵称/网名（必填）：

电子邮箱地址（不会被公开）（必填）：

发帖/回帖前，请了解相关版规：

0，邮箱地址尽量真实有效，随意填写的可能会被系统误判为垃圾内容。
1，不要开书单。单个帖子尽量发布一种书籍需求。
2，在搜索不到相关主题的情况下，尽量发新帖（发帖标题最好带上书名）。不要在他人帖子中回复某种书籍需要。
3，发帖提问标题尽量简单明了。发帖内容不要太过简略，请对书籍内容、版本或作者作简要说明。
4，出版于1976年以后的资源需求或分享将会被清理删除。