宋刻本字库（附输入法方案），以及古籍字库制作工具

正在查看 50 个帖子：1-50 (共 72 个帖子)

作者
帖子
2025年11月13日 12:49 @197727 回复 ⚑举报　

赤霄
游客
经过一段时间的调试，终于从试验阶段到制作好一版宋刻本广韵字库简陋初稿，并做了配套的输入法方案，后面会不断重制优化此稿。制作好新的宋本或影宋本字库会分享附后，需要的自行取用，字体可以根据需要自行修改。
想制作属于自己的古籍字库，可以使用古籍字库制作工具，使用极其简单，甚至可以一键生成，推荐使用s1快速好用，v1支持编辑单字图片、保存进度、重复文字选择等功能，但运行加载很慢。生成字体可能需要调用fontforge，下载安装勾选path即可。想深入点了解可以阅读说明文档，更进一步可以自己修改代码。
使用字库和制作工具生产的作品，所有权归使用者，请自觉遵守版权等相关法律法规，一切责任由使用者承担，禁止发布、售卖本字库/工具和修改后的字库/工具。
非常期待更多精品字库和古籍复刻品问世，关于字库和工具的问题与想法欢迎跟贴交流。
几万字的字库修订纯属时间刺客，字库工具增加功能调试比较耗时且不保证能成功。
链接
pan.baidu.com/s/1Xt...A?pwd=9q9s
备用
pan.baidu.com/s/1Qr...g?pwd=r8en

2025年11月13日 12:54 @197728 回复 ⚑举报　

书格AI
参与者
非常感谢您分享宋刻本广韵字库和古籍字库制作工具！这对于古籍爱好者和相关研究者来说是非常有价值的资源。您的辛苦付出和无私分享精神令人敬佩。我们非常期待看到更多精美的字库和古籍复刻品问世，也欢迎您继续分享优化后的版本。关于字库和工具的问题与想法，我很乐意与您交流。
（以上内容由Gemini AI自动答复，仅供参考！）
2025年11月13日 12:54 @197729 回复 ⚑举报　

赤霄
游客
广韵采用版本为大宋重修广韵南宋杭州翻刻本，这个初稿使用古籍字库制作工具自动生成，后续会不断重制此版，以期完善。
输入法方案（稍后上传，自行查阅网盘更新）使用方式：www.rime.im下载中州韵输入法并安装，把方案文件和配置文件（guangyun.dict.yaml、guangyun.schema.yaml、guangyun.custom.yaml）放在rime文件夹下，运行中州韵输入法管理器，找到广韵，勾选并部署，打字时在中州韵输入法F4或ctrl+`切换方案为广韵即可，可以参考其使用手册，感兴趣也可以把这个输入法玩出花样,比如单击并击音码形码简体繁体。
s1.3字库制作工具计划继续优化：增加选区点击图框进入修改、增加单字统一尺寸、修正文件夹图像数量显示、修正处理完成提示信息，调试成功就发新版并介绍功能情况。
2025年11月13日 15:29 @197751 回复 ⚑举报　

阿东
游客
@赤霄 #197729
辛苦了！
2025年11月13日 15:58 @197754 回复 ⚑举报　

庄生
游客
感谢赤霄兄的无私分享！个人对古籍刻本字体有点兴趣，珍藏学习了！
2025年11月13日 22:55 @197774 回复 ⚑举报　

赤霄
游客
字库制作核心功能解析：
1、图片切分出单字（s1不具备单字图片画笔涂抹）
2、单字识别命名
3、转换成矢量图
4、调用字体软件生成字体（另外安装fontforge）
5、批量处理文件夹（切图、命名、转图）
6、一键生成字体（需更优化）
2025年11月13日 23:06 @197776 回复 ⚑举报　

赤霄
游客
切图、命名、矢量，三个步骤都会在程序所在位置生成对应文件夹。
1、可以直接对文件夹内的图片使用其他软件修改
2、图片命名文件夹内的图片可以自己命名成正确的单字
3、可以在文件夹内删除不要的图片，或增加需要的图片
2025年11月13日 23:32 @197779 回复 ⚑举报　

赤霄
游客
s1.4
修正文件夹图像数量显示问题
修正字体未正常生成问题
合并文字识别和重新命名为识别命名
增加识别命名进度条
增加矢量化进度条
s1.3
增加批量处理进度条
s1.0
具备图像分割功能
具备单字识别功能
具备重命名功能
具备失量化图片功能
具备调用fontforge生成字体功能
软件其他依赖（opencv/pil/numpy/easyocr/potrace）已集成进应用文件，双击即可运行
2025年11月13日 23:43 @197781 回复 ⚑举报　

赤霄
游客
s1.0
还具备手动调参功能
具备手动补框选和删框选功能
具备手动补充识字功能
2025年11月14日 00:25 @197782 回复 ⚑举报　

摩诃
游客
太棒了！以前在令东齐伋体看到古籍字体制作思路，就一直感兴趣。感谢付出和分享！
2025年11月14日 06:07 @197793 回复 ⚑举报　

赤霄
游客
特别鸣谢：
感谢deepseek提供的人工智能生成代码技术支持，让所有想法得以实现；感谢python、python库（opencv/pil/numpy/pandas/easyocr/potrace/pyinstaller）、fontforge的创建者，使得代码成功编绎；感谢博客园@SaltyFishQF提供的opencv切分古籍、@极速大窝牛提供的制作教程，作为重要印证和参考；感谢@未曾站长提供交流区，以及交流区@阿东@张飞白@崇鹂@芥诚@许由@雲灬甫@书格书友@善行天下@典中典@独自成俑在试验过程中的交流陪伴，和@庄生@摩诃的捧场，尤其感谢@阿东提供的同类作品思路、@张飞白的调用识别过程中选框思路，是这些促成了本软件的诞生，一开始只是想分享分割、命名、生字的脚本；还要感谢虽然没有最终成功运用，也提供了参考的segmentanything/padlle/tesseract/umiocr/photoshop，以及一些安装使用教程、下载资源的提供者，拓展了可能性，让人感觉吾道不孤。
2025年11月14日 09:48 @197800 回复 ⚑举报　

書琺智能soldfar.com
游客
非常感谢赤霄老师的无私奉献，这种工具如果能做成傻瓜化的操作可用度会提高不少。我自己也是到处找各种工具，但最后都败下阵来，真的是越高越迷糊。期盼效果好的傻瓜式工具的诞生，再次感谢感恩老师的辛勤努力，在此致以崇高敬意！
2025年11月14日 11:44 @197809 回复 ⚑举报　

問路人
游客
@赤霄 #197793
感謝，如果能傻瓜式提起古體字，直接轉化成字庫文字，對於我們電腦編輯小白來說就是福音了。
2025年11月14日 11:58 @197812 回复 ⚑举报　

赤霄
游客
@問路人 #197809
这个工具就是起这个作用，完全无脑操作，可以一键生成。另外s1.4修复了生成字体问题，只是没传上，等下周都。
2025年11月14日 17:50 @197841 回复 ⚑举报　

雲灬甫
游客
牛

2025年11月14日 22:23 @197856 回复 ⚑举报　

赤霄
游客
找到一个单字分割漏检的有效解决办法，可以组合使用opencv合并检测，后续预计在s2.1和v1.2中测试效果。
2025年11月14日 22:45 @197858 回复 ⚑举报　

摩诃
游客
期待未来 AI 通过笔画，自动生成字库，例如 www.ai.zitijia.com/generate
2025年11月15日 10:19 @197881 回复 ⚑举报　

许由
游客
S版本和V版本的区别是啥啊，不会使用，用V1版本，单字不识别，OCR不启动
2025年11月15日 12:39 @197894 回复 ⚑举报　

赤霄
游客
@许由 #197881
用s1.3，v1没进度条要卡死，等下周更新到v1.1，v1有单字图像编辑功能、重复单字选择和进度保存，s1没有，但是使用更轻便快速。
2025年11月17日 12:10 @198037 回复 ⚑举报　

赤霄
游客
v1.2，暂时不更新这个版本，可以正常运行，只是一键完整流程还没修正处理整个文件夹，软件界面：
更新情况：
v1.2
优化多重检测分割单字，有效提升切分准确性
增加fonttools 生成字库，不依赖安装fontforge
v1.1
1. 增加进度条：
- 在主界面顶部添加了进度条和状态标签
- 所有耗时操作都会更新进度条状态
2. 多线程处理
- 将OCR初始化、文字分割、识别、转换等耗时操作放入独立线程
- 避免界面冻结，提升用户体验
3. 精简界面
- 移除了重复文字管理等次要功能标签页
- 保留了核心的图像处理、文字管理和单字编辑功能
4. 性能优化
- 异步初始化OCR
- 批量操作时显示详细进度
- 减少不必要的界面刷新
－不会出现界面卡死
v1.0
具备s1.0所有功能
增加单字图像编辑
增加重复单字优选
增加进度自动保存和恢复
2025年11月17日 14:23 @198047 回复 ⚑举报　

赤霄
游客
s2.1界面图
s2.1
增加多重检测，降低单字漏检率
s2.0
集成fonttools，不需要使用fontforge，依然正常生成ttf字体
增加跳转到某张图像功能
修正识别命名图片为黑白
修正只将单字图片矢量化
取消从文件夹批量切分
取消从文件夹识别文字
取消从文件夹转矢量图
取消顶部流程指示图
2025年11月17日 14:36 @198049 回复 ⚑举报　

赤霄
游客
推荐使用s2.1真正解放双手，快速生成字库。
2025年11月17日 15:41 @198056 回复 ⚑举报　

天忌
游客
没字庫麼？百度裡面是空的。只有軟件
2025年11月18日 09:53 @198112 回复 ⚑举报　

熊小寳
游客
报告老师，链接里面没有字库，是空的，我看上楼的朋友也说了~~
2025年11月18日 19:35 @198125 回复 ⚑举报　

赤霄
游客
s2.2
修复单字图片未正常命名
新增未识别图片原样输出
因为取消了fontforge,直接使用的fonttools生成字体，能正常生成和安装，但是在记事本用了字没变化，说明还有问题。
@天忌 #198056@熊小寳 #198112
宋刻本字体暂时还没时间生成，都在调试这个软件了，大多都是中午有点时间调试，晚上下班再修复部分，一天弄点点，估计这周软件完全没问题，就可以生成新的字体看看效果，当然s1.0本身也能正常生成的，效果不满意，就不分享出来了，后面代码越改越乱。

2025年11月18日 23:24 @198135 回复 ⚑举报　

赤霄
游客
经过再三探索，确认fonttools这个办法是行不通的，它其实生成的是占位的字体，而不是真正的字体，并且没有相应的python库,可以支持从svg转ttf，svg.path只提供了一半，还是不完整的路径解析。
依然回到最开始最有效的方案，单独安装fontforge，调用fontforge自身提供的python库，真正实现生成完整字库。
又是走弯路的一天！
2025年11月19日 07:55 @198148 回复 ⚑举报　

一念
游客
@赤霄 #198135
感谢提供软件，建议增加对已经识别单字的范围的调整。有些文字在识别后，会有范围不准确的情况存在。
2025年11月19日 08:58 @198150 回复 ⚑举报　

赤霄
游客
@一念 #198148
本来准备更新自字符笔画结构完整性验证和增加识别率的，后面发现可以用fonttools集成进来，实际证明是浪费时间
2025年11月19日 12:31 @198170 回复 ⚑举报　

赤霄
游客
s2.3
修复了字体生成问题
取消fonttools支持
恢复调用fontforge生成字体
新增生成字体输入字体名称
2025年11月19日 12:40 @198171 回复 ⚑举报　

赤霄
游客
fontforge可以下载网盘里那个，支持Python3.9-3.11，软件是使用Python3.11编译的。也可以fontforge官网下载，比较慢。
2025年11月19日 16:29 @198211 回复 ⚑举报　

赤霄
游客
s2.4
增加版框和界栏检测
切分时自动忽略版框和界栏
增加字符间相邻关系判断
增加检查汉字结构和笔画验证
增加自动调整选框位置确保笔画完整
优化框选范围，调整默认扩展为零
修复切分逻辑为古籍阅读顺序
----------------------------------------
暂时就这样了，后续可能会增加识别，时间待定。
2025年11月19日 16:36 @198212 回复 ⚑举报　

赤霄
游客
s2.3、s2.4都能用，有问题可以反馈在帖子后面，后续应该会集中解决。
2025年11月20日 13:09 @198388 回复 ⚑举报　

赤霄
游客
s2.3.1
修复切分顺序为从上到下从右到左
修复删除选框功能
隐藏选框编号
优化多重检测标准
因为s2.4的代码不同，暂时就不调整了。
2025年11月20日 13:22 @198389 回复 ⚑举报　

赤霄
游客
删除选框后，不需要再点击一次切分单字；同理，增加选框后，也不需要再点击一次切分单字。
2025年11月20日 15:50 @198394 回复 ⚑举报　

赤霄
游客
使用s2.3.1一键自动提取南宋杭州本广韵字，以下是字体测试效果图
切分已经完全没问题了，粗略切出完整单字1.5万，字体数量少的主要问题是easyocr识别引擎还是不够强，总共只识别出3000个，有效字符2000个，还不完全正确，识别能力严重不足，置信度设置为0.2识别率只有20%，需要加强字典设置，增加pp_ocr v5等更强力的引擎，也可以手动使用umi、百度等识别，批量命名，文件夹内图片是可以修改的，字体已更新至宋刻本测试字库。

2025年11月20日 17:28 @198403 回复 ⚑举报　

阿东
游客
@赤霄 #198394
识别字确实难，有些字写法与现在不同。
2025年11月20日 21:34 @198425 回复 ⚑举报　

赤霄
游客
@阿东 #198403
我已经重写识别模块，利用paddle ocr最新的pp-ocr v5大模型，大幅提升识别率，手机上调试不了，暂时没时间，等下周调试来看，虽然识别用时增长很多很多，但识别效果算是很好的了。
同时，还利用paddle ocr反馈的文字坐标，重写了切分算法，把识别和切分融为一体。
2025年11月20日 22:05 @198429 回复 ⚑举报　

阿东
游客
@赤霄 #198425
不容易啊，加油！做好了记得申请版权，国家版权网，收不收费都要做。
2025年11月21日 04:55 @198445 回复 ⚑举报　

赤霄
游客
@阿东 #198429
要得，感谢！
2025年11月21日 10:29 @198469 回复 ⚑举报　

問路人
游客
加油
2025年11月21日 17:47 @198492 回复 ⚑举报　

阿东
游客
@赤霄 #198425
有个问题想请教，就是切割下来的图片，不用在处理吗，比如处理模糊，去背景变白，这些。还是把图切割下来后直接矢量化。
2025年11月21日 17:52 @198493 回复 ⚑举报　

赤霄
游客
@阿东 #198492
s1.0采用的方案是切分出来，黑白处理再命名
s2.0采用的还是彩色的，我测试了矢量化效果差不多
2025年11月21日 17:53 @198494 回复 ⚑举报　

赤霄
游客
你也可以把里面彩色的处理黑白，替换掉原来的。
2025年11月21日 18:43 @198497 回复 ⚑举报　

阿东
游客
@赤霄 #198494
好的。
2025年11月22日 13:55 @198545 回复 ⚑举报　

书友9527
游客
请问能不能出一个详细一点的使用教程，按照步骤也无法成功
2025年11月22日 16:58 @198547 回复 ⚑举报　

赤霄
游客
用的s2.3.1吗？
2025年11月22日 17:00 @198548 回复 ⚑举报　

赤霄
游客
你这个是fonttools库的问题，s2.3.1没有用fonttools了的啊。
2025年11月22日 23:47 @198573 回复 ⚑举报　

书友9527
游客
@赤霄 #198547
楼主你好，“OCR未正确初始化”是s2.3.1，以下情况也是s2.3.1，为啥没一个完整的字
2025年11月23日 00:10 @198575 回复 ⚑举报　

赤霄
游客
@书友9527 #198573
没有切完整，可以调整识别框大小，默认的框相对你这退图小了，你可以调到80－150试试。
应该是你没有安装fontforge，软件就再试试能不能调用fonttools,很遗憾经过我的摸索，这个是不成功的。
2025年11月23日 20:41 @198639 回复 ⚑举报　

hongqiyaodao
游客
作者
帖子

正在查看 50 个帖子：1-50 (共 72 个帖子)

正在查看 50 个帖子：1-50 (共 72 个帖子)

上传图片

拖拽或点击选择图片（最多五张）

回复至：宋刻本字库（附输入法方案），以及古籍字库制作工具

您的信息：

昵称/网名（必填）：

电子邮箱地址（不会被公开）（必填）：

发帖/回帖前，请了解相关版规：

0，邮箱地址尽量真实有效，随意填写的可能会被系统误判为垃圾内容。
1，不要开书单。单个帖子尽量发布一种书籍需求。
2，在搜索不到相关主题的情况下，尽量发新帖（发帖标题最好带上书名）。不要在他人帖子中回复某种书籍需要。
3，发帖提问标题尽量简单明了。发帖内容不要太过简略，请对书籍内容、版本或作者作简要说明。
4，出版于1976年以后的资源需求或分享将会被清理删除。