- 作者帖子
泉说游客AI井喷百模争鸣的时代,有没有一种AI大模型可以自动校对重版的古籍?
A图(重版) AI B图(原版)
两张图片一对比,重版内的错别字,与原版不同的字可以一目了然,对古籍重版可以起到极大推动!
正音悉达游客能够对录的前提是100%识别内容,用统一的标准输出做对比
如果不能做到100%精确识别,还是需要人工后期打补丁,那就不如干脆人工来做,
泉说游客理论上很难百分之百重版古籍,即便人工校对也无法百分之百,AI校对可以弥补人工未能识别出来的错误。人工+AI可以最大可能减少错误,前提是AI校对模型要非常好使。
oldestman游客目前来说对AI的应用不要太期待,先等等吧
正音悉达游客我做过类似的事情,几个徒弟给我做前期前期工作,但是他们总有点小毛病,不能做到100%正确
我还是要一个字一个字看过去,而且因为他们怎么说也有些基础,只会留下一些特别难分辨的错误,每次都要提心吊胆,我感觉反而更累了
AI也是同理,校对这个事情,一本书只有一处错误和一本书有一百处错误,从工作量来看是一样的
见贤思齐游客目前比较难,我前几天用国内某大模型做数据清洗,识别非常难,错误甚至大段的内容丢失,都需要人去识别补充,效率很低。
馆游客用过目前流行的几个ai的图像识别,中国古文不用看了,完全没训练过似的,倒是外国古籍的识别还行,虽然有错但多少减少了工作量,可能是因为26个字母容易点吧。外国古籍主要是每个时间段流行的字体区别但量毕竟小,对手写体的识别还有待加强。中国古籍估计还没人专门喂数据训练过,投入高而且不能产生多少经济效益,有些做检索的软件正确率也有限,这也解决了部分问题但还是不能完全替代人工。
馆游客我再举个例子吧,因为我也下棋,棋类ai它显示的是各个点位的胜率分布,这是用n多棋谱喂过训练之后的,但是有些局面高胜率的点走到后面会出现胜率大幅下滑,这就是坑。目前识别古字体的软件也一样,他也是给出几个概率不同的可能字体,有时候正确的字是概率很低的字,甚至完全不在他显示范围之内的,所以目前只能当参考来减少部分工作量用。
泉说游客感觉技术上主要瓶颈是对原版的文字识别,重版的前提是手工编辑本身已是数字化数据,识别率应该很高。设想的这个应用场景好比是校对十万字的文章,想把文内某个词汇更改为新词汇,即便是人工校对多么认真,仍难敌一个查到替换命令。两相比较,即便不能百分之百识别出区别,若能排除90%的相同部分,对校对来说帮助仍是极大的。
- 作者帖子
正在查看 9 个帖子:1-9 (共 9 个帖子)
正在查看 9 个帖子:1-9 (共 9 个帖子)
正在查看 9 个帖子:1-9 (共 9 个帖子)