正在查看 3 个帖子:1-3 (共 3 个帖子)
  • 作者
    帖子
  • @130879 回复 ⚑举报 

    崇鹂
    游客

    因为想翻译一本和古书,发现的一个项目。

    据网络报道,日本在1900年左右废除了“古草体”教学,现代日本人阅读古文时面临较大困难,所以制作了这个“古草体OCR”项目。

     

    一、项目论文:

    arxiv.org/pdf/1....09433.pdf

    二、项目数据:

    由于不懂日文也不懂技术,没搞清楚是不是

    1、www.kaggle.com/c/kuz...urces=true

    2、codh.rois.ac.jp/kmnist/

     

    三、项目网站:

    主页:

    codh.rois.ac.jp/

    这个网站是跟国文研究所合作的,由于不懂日文,具体可自行试验。

    例如:

    1、古草体字符板块:

    codh.rois.ac.jp/char-shape/

    涉及电脑字体编码、大模型学习的数据库。输入单字会出现日本文字正、异各体的古籍实例,数量颇为可观

    搜狗截图20240320115642

    2、篆书实例版块:

    codh.rois.ac.jp/tensho/

    可以输入单字,会从中日字典中提取出关文字的篆体,但收书不算多

    搜狗截图20240320120034

    3、日本古籍人物图像板块

    搜狗截图20240320120502

     

    4、古今日文转换版块:

    codh.rois.ac.jp/soan/

    可以输入某些名词语句,会自动生成可复制的文本,并提供古草体图片分享,比较有趣味

    搜狗截图20240320114631

    5、日本古籍自动OCR

    codh.rois.ac.jp/kuzushiji-ocr/

    提供手机软件服务,和在线翻译(粘贴IIIF链接),但因为要登录谷歌推特等账号才能用,我暂时没有进行下一步,后面还要试验一下收不收费、翻译能力

    搜狗截图20240320121110

    @130880 回复 ⚑举报 

    麻黄
    游客

    感觉不错,希望有能力者能验证一下!

    @130887 回复 ⚑举报 

    崇鹂
    游客

    刚刚用了一下,正确率,感觉是70%左右。

    例如“二”这个结构,可以表示日语假名,可以表示汉字,可以表示重字符号,且日本人的写字很放荡丑恶,机器已经懵了。

    日文的先天缺陷,加上喂养的数据量太少,远不如中文OCR。好处是免去了逐一码日本假名的痛苦,能够直接粘贴到翻译软件、在错漏百出中知其大意。

正在查看 3 个帖子:1-3 (共 3 个帖子)
正在查看 3 个帖子:1-3 (共 3 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:日本“古草体”(Kuzushiji )识别项目
您的信息:



发帖/回帖前,请了解相关版规

0,邮箱地址尽量真实有效,随意填写的可能会被系统误判为垃圾内容。
1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1973年以后的资源需求或分享将会被清理删除。