有无开源的方言识别的训练模型

正在查看 6 个帖子：1-6 (共 6 个帖子)

作者
帖子
2024年04月25日 17:38 @136180 回复 ⚑举报　

泉说
游客
近年来已收录方言词汇约1500条，准备对收录的词汇适配上方言语音。查了一些资料多是针对英语语音识别或汉语普通话语音识别的算法模型。有没有针对的方言语音识别模型，久久为期之后，想在方言语音识别尝试一下，不知是否有开源的识别模型。现在仅有千余条词汇，甚至语音采集都不知道遵循什么标准。诚望大牛赐教，立定，作揖。
2024年04月25日 19:25 @136195 回复 ⚑举报　

崇鹂
游客
现在方言播音网站很多，只是简单的“输入汉字”→“播放音频”，有没有公司去搞方言识别技术，对其必要性和效益，我表示怀疑。
例如你想训练个模型去识别上海话，要哪些字词才能完整全面的代表上海话，很难说。当把上海、宁波、苏州、温州、客家等地区的集成后，会不会相互干扰，也难说。例如陈寅恪的恪，读成ko的方言就一大堆。
对于语言学家来说，现有的《中国语言资源保护工程》也已经足够用了。他们的思路并不是想完整的识别或复现某种方言，而是挖掘方言特色，分析其语音演变路径，总之找到某种方言在汉藏语系大范围里的共性和特性。只是抓一些典型的字词去采集，例如不同地区读太阳、月亮，怎么读，足以供给学术研究。
识别方言、复现方面似乎不是他们当前的工作重点，而是尽快救亡，在完全同化之前，在日渐趋同之间，采集到其语音特色。

2024年04月25日 20:58 @136197 回复 ⚑举报　

泉说
游客
@崇鹏#136195
感谢回复。
方言播音网站这类网站倒还没注意到，能否赐个站名或站址。
必要性个人认为是有的，祖孙不能顺利交流的现象不是个别现象，有普遍性。
方言语音这块资源库多是高校或图书馆在开发研究。商业模式没做过调查，科大讯飞或地图导航可能有商用模式。
语保平台虽然资源足够多，但各地词汇也仅有1200条词汇。其他几个较大的预料资源库也仅在2000条左右，仅从方言词汇量来看相当大的词汇未收录。
一音多字甚至有音无法适配到文字的，个人觉得可以用便与书写的字或近意字代替。

2024年04月25日 22:03 @136200 回复 ⚑举报　

崇鹂
游客
@泉说 #136197
所谓播音，是指语音播放，例如搜XX在线翻译等等，只是播放既定的音频文件，对于模型训练不是一回事了，通常也只是大片区，例如客家闽南粤语苏州上海，这些网站因为经费不足等因素也逐渐荒废，或转为手机APP了。类似讯飞翻译笔那种实时语音翻译的，尚没有看到，但微信好像很多年前就已经能识别粤语转化为文字，我没调查不确定这个功能使用热度如何
至于方言交流，我认为现在小孩不懂方言是动画片和儿歌没有方言版造成的，人在六岁之前学不会，就丢失了自然通悟的机会了，后期除非工作需要等像学英语一样，硬去学。而且据我观察，老人家讲方言，小孩讲普通话，双方都不会说、或说不利索，但都听得懂的，也能交流。所以对于花精力建设识别项目，我还是不看好的，但保持敬意吧。个人更看重还活着的人，录音存档、采集救亡一类的项目。
2024年04月27日 06:58 @136303 回复 ⚑举报　

WiLL
游客
github.com/openai/whisper
Whisper 是 OpenAI 研发并开源的一个自动语音识别（ASR，Automatic Speech Recognition）模型，他们通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高模型对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。目前，Whisper 已经有了很多变体，也成为很多 AI 应用构建时的必要组件。
最近，来自 HuggingFace 的团队提出了一种新变体 —— Distil-Whisper。这个变体是 Whisper 模型的蒸馏版，特点是模型小、速度快，而且准确度还很高，非常适合在要求低延迟或资源有限的环境中运行。不过，与能够处理多种语言的原始 Whisper 模型不同，Distil-Whisper 只能处理英文。
2024年04月27日 18:55 @136374 回复 ⚑举报　

泉说
游客
谢谢🙏will，，非常好的建议。其实现在是两眼一抹黑，甚至语音采集都不知道遵循什么标准。普通手机录音不知道可不可以！
作者
帖子

正在查看 6 个帖子：1-6 (共 6 个帖子)

上传图片

拖拽或点击选择图片（最多五张）

回复至：有无开源的方言识别的训练模型

您的信息：

昵称/网名（必填）：

电子邮箱地址（不会被公开）（必填）：

发帖/回帖前，请了解相关版规：

0，邮箱地址尽量真实有效，随意填写的可能会被系统误判为垃圾内容。
1，不要开书单。单个帖子尽量发布一种书籍需求。
2，在搜索不到相关主题的情况下，尽量发新帖（发帖标题最好带上书名）。不要在他人帖子中回复某种书籍需要。
3，发帖提问标题尽量简单明了。发帖内容不要太过简略，请对书籍内容、版本或作者作简要说明。
4，出版于1976年以后的资源需求或分享将会被清理删除。