- 作者帖子
深藍古籍學會游客最近公司要做古籍善本數位化計劃,所以我順便調查了一下市麪上的古籍OCR的能力。我以前在東華大學讀書的時候,蓡加過《句解論語》的數位化整理,那時候沒有現在這麽先進的工具,我們衹能一個字一個字地敲進電腦裡。現在因爲人工智能發展得很快,市麪上有好多自動的OCR軟件,這樣應該能省下好多時間啦。
老板的要求很明確,一方麪是希望OCR的識字率高,另一方麪是希望它能識別更多的字,最好還能有個用戶耑可以方便上傳。有用戶耑的話,就不用那麽麻煩地上傳,也減少了一些泄露機密的風險。不過遺憾的是,搜索穀歌後很快發現,台灣本土做國字識別的公司很少,大部分古籍OCR的公司都集中在對麪。不過老板說,大陸的公司也可以考慮,但一定要好好測試和調研,因爲那邊的人最擅長的就是誇誇其談啦。
《曾國藩家書》中曾這樣說到“唯天下之至真能勝天下之至偽,唯天下之至拙能勝天下之至巧”。像是古籍的手稿本這些很複襍的版麪,比如手寫躰的抄本、連筆的行書稿、有注解的印本、有墨跡的版麪,還有大陸時期的報紙,拿這些真的東西來測試,就像是看看是騾子還是馬,一跑就知道了,就能看出誰最厲害了。
好啦,我們開始吧。
深藍古籍學會游客i-慧眼OCR
平台網址:https://dzcj.unihan.com.cn/
用戶端:無
支援档案:https://dzcj.unihan.com.cn/Ocr/Help
注冊了半天,哇塞,這彈窗真的很厲害,然後聯絡了他們客服專員,半天也沒有廻應。唉呀,大陸那些財大氣粗的公司真的搞不懂搞什麽。
價格:付費,1.5元每頁
評價:你頁麪上說好了可以免費測試5個頁麪,我注冊了你還要讅核!本來就摳摳搜搜的挺小氣的,哪裡有這樣做生意的嘛!?
深藍古籍學會游客如是古籍厂家
平台網址:https://guji.rushi-ai.net/
用戶端:無
支援檔案:沒找到
上傳限制:只支援圖片,每天最多5張,真是太小氣了。
北京如是人工智慧技術研究院開發的產品,看官網簡介是在做漢文佛教大藏經,做著做著就做出如是古籍OCR平台,支援切割校對、聚類校對、數據管理、任務管理、用戶管理 等,功能滿滿的。
費用:搜尋資料說,可辨識2w字還多,個人用戶OCR辨識免費20張,OCR辨識商業用戶1.2元/張,智慧標點1元/萬字。
我的評價:產品完成度很高的樣子,印版抄本都支援,識別率也很高,應該有95%以上。 而且識別的正體字很多很多,字元級別不知道多大,但基本上夠用。 不過我到了校對介面,我就霧煞煞的,學了好一陣才懂一點點,svg 只好請大家的原諒了。還沒測完就超限了,真是太小气了💢💢!。
深藍古籍學會游客籍合網
平台網址:https://collation.ancientbooks.cn/
用戶端:無
上傳限制:打不開啦,不知道是不是我網路不穩定嗎! ?咯,我覺得進行不下去了啊,💢💢
深藍古籍學會游客目前的工作焦点是在文字数字化,两边对于古籍文字内容的数字化还非常少。
网盘里面有那么多古籍档案,如果不能转变成文字,就没办法让大众比较容易地接触到。
实际上,国外早就有一些开源免费的古文字OCR(光学字符识别)项目了,比如日本的有NDLOCR。
但我調查了一下,我們這邊大多都是要收費的,這就有點淒涼了。
深藍古籍學會游客網路上說的那麼天花亂墜,事實上連網址都打不開嘛,果然誇誇其談的還是太多。
能打開的又那麼小氣💢。
未曾管理员您还是用简体字吧
xiaopengyou游客
深藍古籍學會游客漢典重光
平台網址:https://collation.ancientbooks.cn/
用戶端:無
上傳限制:只支援PDF
辛苦弄到一個註冊碼,上傳文件時卻顯示無法上傳。 之後聯絡他們的工作人員,又被弄了一個新的帳號。 然後試了一下整齊的古籍頁面,連文字的位置都搞不定,這是在搞啥啊?
深藍古籍學會游客@xiaopengyou #136524
就你懂灣灣
看典古籍游客您可以试试我们的
深藍古籍學會游客古籍酷
平台網址:https://ocr.gj.cool/
客戶端:無
上傳限制:只支援圖片,但上傳完後也沒有儲存記錄。
辨識體驗:這個UI倒是很有風格。 但說回來,不常見文字的識別正確率一言難盡,似乎又是北京的大法師開發的,也是基於大藏經。 從界面上來講一言難盡,我還以為是進了英文版的古籍識別,我找了半天的識別按鈕才找到(Pro按鈕)。 另外一方面,校對介面上黑洞洞的,還不支援放大縮小,操作起來蠻吃力的,況且文字對齊也不算準確。
深藍古籍學會游客@看典古籍 #136531
看典古籍
該站致力於將珍貴的古籍資源數位化,並提供全文搜尋、圖文對照閱讀等功能,為使用者提供便利的古籍研究和閱讀體驗。
平台網址:https://www.kandianguji.com/
用戶端:有,支援截圖識別!
支援檔案:https://www.kandianguji.com/article_detail?id=11
上傳限制:支援圖片、PDF
我的評價:產品完成度很高很高,辨識效果很不錯很厲害🥰,而且已經開放了30000餘冊,100多萬數位化影像,另外還有線上智慧輔助校對系統,可以上傳影像經過OCR後校對結果 並導出,對於不願花錢去如是這類網站購買服務的人來說,已經非常堪用了! !
深藍古籍學會游客識別率好高好厲害哦
zhudwi游客OCR 應該是商業需求。對於普通讀者來說,希望的是【零錯字】。以現在的技術來說,你們做不到【零】錯誤的。就別折騰了。
深藍古籍學會游客千百OCR
千百OCR 體積小免安裝免費綠色版。 有效率地辨識簡體,繁體豎排,日文韓文俄文等多國文字,並額外優化繁體豎排文字的辨識。 快速繁簡轉換。 還能在辨識後進行翻譯,支援28種語言。 並帶文字朗讀或保存為mp3功能,是日常辦公,備課,學生寫論文的得力工具。
平台網址:http://www.spf.cn/ocr/
用戶端:http://www.spf.cn/ocr/
支援檔案:很簡單的軟體。
格式限制:支援圖片和PDF,可以 batch 辨識。
費用:每天識別50次,第2天又能辨識50次。 用百度的識別介面。
辨識體驗:之前有用過一段時間,其實大部分的古籍印刷體,用這個軟體的識別準確度滿高的,但是遇到手寫體的稿本就不太好,話說百度也不是專業搞古籍的。不过可以匯出TXT格式。@未曾 #136521
收到了
深藍古籍學會游客后记小结
綜合起來讲,如果不想花錢,輕度使用可以选择如是、看典古籍、千百OCR都是可以的,三個平台輪流使用也可以滿足基本的需求。 但是,如果要有精心的校對、或者要做正經的古籍校編工作, 我认为只有看典古籍和如是兩個平台了。其他公司平台,那就看個人喜好啰,萝卜白菜各有所爱吧。
乘风游客i-慧眼OCR还是比较好用的,但这家公司过于小气,对图片的文字有限制,好像一次只能识别500字,收费高,服务态度又极其差。
xiaopengyou游客即使不是機器簡轉繁,平常誰會用這樣的繁體字?這和懂不懂灣灣有啥關係?
繁躰,軟躰,蓡加過,市麪上,一方麪,用戶耑,穀歌,對麪,複襍的版麪,手寫躰。
崇鹂游客有得用就不错了哥们,最后还是要人工一个个去对。
石佛游客机器简转繁 错了许多 不嫌累吗
- 作者帖子
正在查看 21 个帖子:1-21 (共 21 个帖子)
正在查看 21 个帖子:1-21 (共 21 个帖子)
正在查看 21 个帖子:1-21 (共 21 个帖子)