正在查看 21 个帖子:1-21 (共 21 个帖子)
  • 作者
    帖子
  • @136507 回复 ⚑举报 

    深藍古籍學會
    游客

    最近公司要做古籍善本數位化計劃,所以我順便調查了一下市麪上的古籍OCR的能力。我以前在東華大學讀書的時候,蓡加過《句解論語》的數位化整理,那時候沒有現在這麽先進的工具,我們衹能一個字一個字地敲進電腦裡。現在因爲人工智能發展得很快,市麪上有好多自動的OCR軟件,這樣應該能省下好多時間啦。
    老板的要求很明確,一方麪是希望OCR的識字率高,另一方麪是希望它能識別更多的字,最好還能有個用戶耑可以方便上傳。有用戶耑的話,就不用那麽麻煩地上傳,也減少了一些泄露機密的風險。不過遺憾的是,搜索穀歌後很快發現,台灣本土做國字識別的公司很少,大部分古籍OCR的公司都集中在對麪。不過老板說,大陸的公司也可以考慮,但一定要好好測試和調研,因爲那邊的人最擅長的就是誇誇其談啦。
    《曾國藩家書》中曾這樣說到“唯天下之至真能勝天下之至偽,唯天下之至拙能勝天下之至巧”。像是古籍的手稿本這些很複襍的版麪,比如手寫躰的抄本、連筆的行書稿、有注解的印本、有墨跡的版麪,還有大陸時期的報紙,拿這些真的東西來測試,就像是看看是騾子還是馬,一跑就知道了,就能看出誰最厲害了。
    好啦,我們開始吧。

    @136509 回复 ⚑举报 

    深藍古籍學會
    游客

    i-慧眼OCR
    平台網址:https://dzcj.unihan.com.cn/
    用戶端:無
    支援档案:https://dzcj.unihan.com.cn/Ocr/Help
    注冊了半天,哇塞,這彈窗真的很厲害,然後聯絡了他們客服專員,半天也沒有廻應。唉呀,大陸那些財大氣粗的公司真的搞不懂搞什麽。
    價格:付費,1.5元每頁
    評價:你頁麪上說好了可以免費測試5個頁麪,我注冊了你還要讅核!本來就摳摳搜搜的挺小氣的,哪裡有這樣做生意的嘛!?

    tu_2024-04-29_09-30-41

    @136510 回复 ⚑举报 

    深藍古籍學會
    游客

    如是古籍厂家
    平台網址:https://guji.rushi-ai.net/
    用戶端:無
    支援檔案:沒找到
    上傳限制:只支援圖片,每天最多5張,真是太小氣了。
    北京如是人工智慧技術研究院開發的產品,看官網簡介是在做漢文佛教大藏經,做著做著就做出如是古籍OCR平台,支援切割校對、聚類校對、數據管理、任務管理、用戶管理 等,功能滿滿的。
    費用:搜尋資料說,可辨識2w字還多,個人用戶OCR辨識免費20張,OCR辨識商業用戶1.2元/張,智慧標點1元/萬字。
    我的評價:產品完成度很高的樣子,印版抄本都支援,識別率也很高,應該有95%以上。 而且識別的正體字很多很多,字元級別不知道多大,但基本上夠用。 不過我到了校對介面,我就霧煞煞的,學了好一陣才懂一點點,svg 只好請大家的原諒了。

    s333s111

    4334331

    還沒測完就超限了,真是太小气了💢💢!。

    s333

    @136511 回复 ⚑举报 

    深藍古籍學會
    游客

    籍合網
    平台網址:https://collation.ancientbooks.cn/
    用戶端:無
    上傳限制:打不開啦,不知道是不是我網路不穩定嗎! ?

    222

    咯,我覺得進行不下去了啊,💢💢

    @136514 回复 ⚑举报 

    深藍古籍學會
    游客

    目前的工作焦点是在文字数字化,两边对于古籍文字内容的数字化还非常少。

    网盘里面有那么多古籍档案,如果不能转变成文字,就没办法让大众比较容易地接触到。

    实际上,国外早就有一些开源免费的古文字OCR(光学字符识别)项目了,比如日本的有NDLOCR。

    但我調查了一下,我們這邊大多都是要收費的,這就有點淒涼了。

    s333

    @136517 回复 ⚑举报 

    深藍古籍學會
    游客

    網路上說的那麼天花亂墜,事實上連網址都打不開嘛,果然誇誇其談的還是太多。
    能打開的又那麼小氣💢。

    @136521 回复 ⚑举报 

    未曾
    管理员

    您还是用简体字吧

    @136524 回复 ⚑举报 

    xiaopengyou
    游客

    @未曾 #136521

    哈哈

    機器的簡轉繁,看的就很古怪!

     

    @136527 回复 ⚑举报 

    深藍古籍學會
    游客

    漢典重光
    平台網址:https://collation.ancientbooks.cn/
    用戶端:無
    上傳限制:只支援PDF
    辛苦弄到一個註冊碼,上傳文件時卻顯示無法上傳。 之後聯絡他們的工作人員,又被弄了一個新的帳號。 然後試了一下整齊的古籍頁面,連文字的位置都搞不定,這是在搞啥啊?

    455

    @136528 回复 ⚑举报 

    深藍古籍學會
    游客

    @xiaopengyou #136524

    就你懂灣灣

    @136531 回复 ⚑举报 

    看典古籍
    游客

    您可以试试我们的

    www.kandianguji.com/ocr

    @136532 回复 ⚑举报 

    深藍古籍學會
    游客

    古籍酷
    平台網址:https://ocr.gj.cool/
    客戶端:無
    上傳限制:只支援圖片,但上傳完後也沒有儲存記錄。
    辨識體驗:這個UI倒是很有風格。 但說回來,不常見文字的識別正確率一言難盡,似乎又是北京的大法師開發的,也是基於大藏經。 從界面上來講一言難盡,我還以為是進了英文版的古籍識別,我找了半天的識別按鈕才找到(Pro按鈕)。 另外一方面,校對介面上黑洞洞的,還不支援放大縮小,操作起來蠻吃力的,況且文字對齊也不算準確。

    @136534 回复 ⚑举报 

    深藍古籍學會
    游客

    @看典古籍 #136531

    看典古籍
    該站致力於將珍貴的古籍資源數位化,並提供全文搜尋、圖文對照閱讀等功能,為使用者提供便利的古籍研究和閱讀體驗。
    平台網址:https://www.kandianguji.com/
    用戶端:有,支援截圖識別!
    支援檔案:https://www.kandianguji.com/article_detail?id=11
    上傳限制:支援圖片、PDF
    我的評價:產品完成度很高很高,辨識效果很不錯很厲害🥰,而且已經開放了30000餘冊,100多萬數位化影像,另外還有線上智慧輔助校對系統,可以上傳影像經過OCR後校對結果 並導出,對於不願花錢去如是這類網站購買服務的人來說,已經非常堪用了! !

    k22

     

    k44

    @136537 回复 ⚑举报 

    深藍古籍學會
    游客

    識別率好高好厲害哦

    k11

    @136538 回复 ⚑举报 

    zhudwi
    游客

    OCR 應該是商業需求。對於普通讀者來說,希望的是【零錯字】。以現在的技術來說,你們做不到【零】錯誤的。就別折騰了。

    @136540 回复 ⚑举报 

    深藍古籍學會
    游客

    千百OCR
    千百OCR 體積小免安裝免費綠色版。 有效率地辨識簡體,繁體豎排,日文韓文俄文等多國文字,並額外優化繁體豎排文字的辨識。 快速繁簡轉換。 還能在辨識後進行翻譯,支援28種語言。 並帶文字朗讀或保存為mp3功能,是日常辦公,備課,學生寫論文的得力工具。
    平台網址:http://www.spf.cn/ocr/
    用戶端:http://www.spf.cn/ocr/
    支援檔案:很簡單的軟體。
    格式限制:支援圖片和PDF,可以 batch 辨識。
    費用:每天識別50次,第2天又能辨識50次。 用百度的識別介面。
    辨識體驗:之前有用過一段時間,其實大部分的古籍印刷體,用這個軟體的識別準確度滿高的,但是遇到手寫體的稿本就不太好,話說百度也不是專業搞古籍的。不过可以匯出TXT格式。

    222

    @未曾 #136521

    收到了

    @136541 回复 ⚑举报 

    深藍古籍學會
    游客

    后记小结
    綜合起來讲,如果不想花錢,輕度使用可以选择如是、看典古籍、千百OCR都是可以的,三個平台輪流使用也可以滿足基本的需求。 但是,如果要有精心的校對、或者要做正經的古籍校編工作, 我认为只有看典古籍和如是兩個平台了。其他公司平台,那就看個人喜好啰,萝卜白菜各有所爱吧。

    @136546 回复 ⚑举报 

    乘风
    游客

    i-慧眼OCR还是比较好用的,但这家公司过于小气,对图片的文字有限制,好像一次只能识别500字,收费高,服务态度又极其差。

    @136553 回复 ⚑举报 

    xiaopengyou
    游客

    即使不是機器簡轉繁,平常誰會用這樣的繁體字?這和懂不懂灣灣有啥關係?

    繁躰,軟躰,蓡加過,市麪上,一方麪,用戶耑,穀歌,對麪,複襍的版麪,手寫躰。

     

    @136585 回复 ⚑举报 

    崇鹂
    游客

    有得用就不错了哥们,最后还是要人工一个个去对。

    @136590 回复 ⚑举报 

    石佛
    游客

    机器简转繁 错了许多 不嫌累吗

正在查看 21 个帖子:1-21 (共 21 个帖子)
正在查看 21 个帖子:1-21 (共 21 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:古籍OCR識別率最高的程式是哪一款?8款免費繁躰字識別軟躰評測
您的信息:



发帖/回帖前,请了解相关版规

0,邮箱地址尽量真实有效,随意填写的可能会被系统误判为垃圾内容。
1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1973年以后的资源需求或分享将会被清理删除。