正在查看 13 个帖子:1-13 (共 13 个帖子)
  • 作者
    帖子
  • @193410 回复 ⚑举报 

    层身
    游客

    STranslate是一款即开即用、即用即走的翻译、OCR工具,支持Windows,最重要的是集成了微信OCR功能,建议尝试

    stranslate.zggsong.com/about.html

    @193411 回复 ⚑举报 

    书格AI
    参与者

    感谢您的推荐!STranslate确实是一款优秀的开源OCR工具。它即开即用、即用即走的特点非常方便,并且支持Windows系统。集成了微信OCR功能和离线OCR技术(基于PaddleOCR),使其在文字识别方面表现出色。对于需要快速翻译和OCR功能的用户来说,这是一个非常实用的选择。

    (以上内容由Gemini AI自动答复,仅供参考!)

    @193483 回复 ⚑举报 

    摩诃
    游客

    最近也试了几个开源 OCR 软件:

    1、Umi-OCR 文字识别工具:基于PaddleOCR,还没有更新到 PaddleOCR 最新版。截图、PDF  批量OCR

    2、OCRmyPDF:基于Tesseract OCR ,中文识别率不如 PaddleOCR

    3、MinerU:基于PaddleOCR,但似乎也没有更新到最新版。将PDF转化为机器可读格式的工具(如markdown、json);markdown可以再转成HTML/DOCX/PDF

    4、PaddleOCR:PaddleOCR 最新版刚出不久(精度提升13个百分点),上述项目可能还没有更新。
    PaddleOCR 演示:https://aistudio.baidu.com/community/app/518494/webUI
    楼主介绍的 STranslate 也是基于PaddleOCR,同样还没有更新到PaddleOCR 最新版。

    还有基于其他模型的:PDF Craft 、chineseocr_lite,不如上述几个。
    我比较期待 Umi-OCR 升级到最新PaddleOCR。

     

     

     

    @193486 回复 ⚑举报 

    摩诃
    游客

    回帖被吞噬,就懒得重新敲开源软件地址了。按名字去github查即可。

    @193533 回复 ⚑举报 

    未曾
    管理员

    @摩诃 #193486

    链接太多容易被系统当成广告

    @193535 回复 ⚑举报 

    层身
    游客

    @摩诃 #193483

    STranslate集成了微信OCR,体会下微信4.0版本截图文字识别,简繁体、横竖排都非常准确。目前STranslate只能识别横排,竖排还不行,我正在解决,解决后没准古籍OCR以后就可以批量识别了。

    @193543 回复 ⚑举报 

    YQ
    游客

    微信OCR识别简繁体、横竖排都非常不错,但识别竖排文字时,行序颠倒,特别是遇到超过正文的避讳字、低格行、不完整行、行中有空格的等,行序更乱。其次,只能一张一张图片操作。

    @193559 回复 ⚑举报 

    小透明
    游客

    是 STranslate 作者么,能否介绍下 本地翻译用的方案(网站信息简略 找不到想要的),还有本地的 PaddleOCR  内存怎么控制,自己写脚本飘忽不定,主要是内存小的机器

    @193590 回复 ⚑举报 

    摩诃
    游客

    @层身 #193535

    可能对于古代偏僻的字或词,微信OCR 或 PaddleOCR 还不能说非常准确可靠。

    可以试试下图,第一段第2-3行,“智𫖮”是否识别准确,还有页尾3个脚注。

    0001

    @193795 回复 ⚑举报 

    YQ
    游客

    调试结果:“智𫖮”之“𫖮”能正常识别,但𦛕注序号丢失“②”,序号“③”窜位。当然还有其他错误,须人工校对。

    下面是OCR原样:

     

    第一章1
    前期思想传承与天台宗的创立
    3
    第一节天台宗的先驱:慧文与慧思
    按照天台宗的传法世系,该宗以印度龙树为初祖,北齐慧文
    为二祖,南岳慧思为三祖,而智𫖮为四祖。其所以推尊龙树为初
    祖的理由以及慧文、慧思、智𫖮之间的关系,依灌顶在《摩诃止
    观》中云:“智者《观心论》云:‘归命龙树师。’验知龙树是高祖师
    也。”① 而《佛祖统纪》则论云:“北齐尊者,宿禀自然,不俟亲承,
    冥悟龙树即空即假即中之旨,以为心观,以授南岳。南岳修之以
    净六根,复以授诸智者。智者用之以悟《法华》,乃复开拓鸿业,
    以名一家。”②然而龙树的学说,除了《中论》中的“三谛偈”确乎
    对天台宗的创立及其思想学说的形成有重要影响以外,其以性
    空为基本特色的中观学说,与天台宗以性具实相为基本内核的
    理论结构,并无实质上的直接关联,更不可能存在谱系上的先后
    继承关系。北齐慧文与南岳慧思,则实开天台宗止观学说之先
    河。
    史料关于慧文的记载
    然史料关于慧文的记载极少,其本人也无著述遗存。唐代道
    宣〈续高僧传》未为慧文立传,而只在<慧思传》中提到:
    时禅师慧文,聚徒数百,众法清肃,道俗高尚。(思)乃往
    归依,从受正法。③
    灌顶在《摩诃止观》中提到智𫖮的师承关系时云:
    ①《摩诃止观》卷一上,见《大正藏》卷四六。
    志磐<佛祖统纪》卷六,见《大正藏》卷四九。
    道宣《续高僧传》卷一七,见上海古籍出版社<高僧传合集》。

    @193796 回复 ⚑举报 

    YQ
    游客

    @摩诃 #193590

    测试结果:“智𫖮”之“𫖮”能正常识别,但𦛕注序号丢失“②”,序号“③”窜位。当然还有其他错误,须人工校对。

    下面是OCR原样:

     

    第一章1
    前期思想传承与天台宗的创立
    3
    第一节天台宗的先驱:慧文与慧思
    按照天台宗的传法世系,该宗以印度龙树为初祖,北齐慧文
    为二祖,南岳慧思为三祖,而智𫖮为四祖。其所以推尊龙树为初
    祖的理由以及慧文、慧思、智𫖮之间的关系,依灌顶在《摩诃止
    观》中云:“智者《观心论》云:‘归命龙树师。’验知龙树是高祖师
    也。”① 而《佛祖统纪》则论云:“北齐尊者,宿禀自然,不俟亲承,
    冥悟龙树即空即假即中之旨,以为心观,以授南岳。南岳修之以
    净六根,复以授诸智者。智者用之以悟《法华》,乃复开拓鸿业,
    以名一家。”②然而龙树的学说,除了《中论》中的“三谛偈”确乎
    对天台宗的创立及其思想学说的形成有重要影响以外,其以性
    空为基本特色的中观学说,与天台宗以性具实相为基本内核的
    理论结构,并无实质上的直接关联,更不可能存在谱系上的先后
    继承关系。北齐慧文与南岳慧思,则实开天台宗止观学说之先
    河。
    史料关于慧文的记载
    然史料关于慧文的记载极少,其本人也无著述遗存。唐代道
    宣〈续高僧传》未为慧文立传,而只在<慧思传》中提到:
    时禅师慧文,聚徒数百,众法清肃,道俗高尚。(思)乃往
    归依,从受正法。③
    灌顶在《摩诃止观》中提到智𫖮的师承关系时云:
    ①《摩诃止观》卷一上,见《大正藏》卷四六。
    志磐<佛祖统纪》卷六,见《大正藏》卷四九。
    道宣《续高僧传》卷一七,见上海古籍出版社<高僧传合集》。

    @195608 回复 ⚑举报 

    摩诃
    游客

    @YQ #193796

    试了一下, 用内置的微信OCR不能正确识别“智𫖮”;下载PaddleOCR数据包(v4.3) 也不能正确识别。

    我用其它工具测PaddleOCR,至少 PP-StructureV3模型 识别正确。

    测试

    @195611 回复 ⚑举报 

    摩诃
    游客

    电脑配置: Win 11,AMD Ryzen 7 8845H 内置780M显卡,内存24GB - 4GB(显卡)

正在查看 13 个帖子:1-13 (共 13 个帖子)
正在查看 13 个帖子:1-13 (共 13 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:推荐一款开源OCR软件
您的信息:



发帖/回帖前,请了解相关版规

0,邮箱地址尽量真实有效,随意填写的可能会被系统误判为垃圾内容。
1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1975年以后的资源需求或分享将会被清理删除。