- 作者帖子
世真游客古籍整理文件名批量替换工具 Version 1.0
出品方:游氏古籍网
开发者:游立超
立项日期:2025年4月30日发布日期:2025年5月1日
开发背景与目标
针对古籍数据库建设整理工作中存在的核心痛点(日/韩藏汉籍尤为突出)——异体字、通假字、古今字、日文假名混用等问题(如「抜→拔」「拝→拜」「辺→边」等),传统工具(如ReNamer Lite)因需要一个个处理,导致古籍数据库建设任务繁重且效率低下,难以满足大规模古籍资料批量命名的需求。为此,本工具在福建省漳州游立超宗亲的支持下,基于Python语言开发,专注实现高效批量文件名修订,助力古籍目录标准化整理,提升统一检索效率。核心功能与技术实现
智能字符映射系统
内置古籍专用异体字/通假字对照表,覆盖中日汉字差异、古今字形演变等场景,支持用户自定义扩展映射规则。
示例映射:拝 → 拜 | 遅 → 迟 | 歩 → 步 | 乗 → 乘字符表参见我号以前发文:日韩藏汉籍文件名简化对照表:提升古籍数据库检索效率
双向递归扫描技术
深度优先遍历:自指定根目录向下递归,精准定位最底层文件,避免遗漏嵌套子目录;
逆向修订机制:
完成全库扫描后,自下而上逐层回溯修改文件名,确保路径引用完整性。
多线程加速引擎
动态调用1-4核CPU线程池,通过异步IO与任务队列优化资源分配,实测10,000个文件批量处理耗时仅约10分钟,效率较传统工具提升5-8倍。系统兼容性与操作优势
跨平台支持:
完美适配Windows 10/11系统,提供图形化操作界面(GUI)与命令行双模式;
安全校验机制:
修订前可预览文件名修改结果,支持图形界面,避免误改风险;
轻量级设计:
单文件执行包(无需安装),文件包小于50MB。完整程序界面
注:字符库为.csv格式 字符库字典需要用记事本打开编辑
程序测试
应用场景与价值
本工具已通过日藏汉籍、敦煌文书、明清刻本等多类型古籍数据集测试,显著优化以下工作流程:目录标准化:统一异体字、繁简字混用文件名,提升数据库检索命中率;
跨语种适配:自动转换日文假名(如「浜→滨」),促进日/韩藏古籍资源快速整理;
大规模协作:批量处理能力支撑团队级项目,缩短古籍整理周期至传统方法的1/3。
性能测试数据测试项
参数配置 完成时间 资源占用
10,000个文件批量修订
4核线程池,10层目录嵌套
10分12秒
CPU 28%
5,000个文件单次修订
2核线程池,5层目录嵌套
5分03秒
CPU 19%结语
本工具以古籍整理场景为核心需求,通过算法优化与多线程技术突破传统效率瓶颈,为汉籍数字化工程提供高效、安全的解决方案。未来版本将持续扩展字符映射库,并适配Linux/macOS系统,助力全球古籍保护与研究事业,助进中华文化研究与推广。通过网盘分享的文件:古籍整理文件名批量替换工具 Version 1.0.zip链接: pan.baidu.com/s/1Tk...Q?pwd=6666 提取码: 6666 --来自百度网盘超级会员v6的分享
注意:
1、使用前请杀毒测试,如有异常请勿使用。
2、数据基于PY编译,若提示“拒绝访问”为权限不够,请使用管理员权限。
3、更改文件名的操作导致文件名数据不可逆,建议备份全量文件名档案。
4、批量替换前请视窗中校核更改后的效果,如有错误请不要点击“执行重命名”操作。
5、公布的“古籍整理文件名批量替换工具 Version 1.0”为第一版本的终版。不再二次修订。
海云庆孚游客游兄,威武
世真游客发图不便详见公众号:游氏古籍 发布文:mp.weixin.qq.com/s/k6L...fJuj5gpKrg
岭南散人游客威武!
黍离游客先赞一个,之后详读,并尝试操作。
双溪钓叟游客@世真 #177292
我试用了非常好用,非常感谢游兄的无私奉献!但不知有没有“繁转简”字符库?望能共享一下。
世真游客字符库是需要整理的。目前建议大家把一些通假字先整理一下。特别是日韩这一块。
- 作者帖子
正在查看 7 个帖子:1-7 (共 7 个帖子)
正在查看 7 个帖子:1-7 (共 7 个帖子)
正在查看 7 个帖子:1-7 (共 7 个帖子)