- 作者帖子
泉说游客近年来已收录方言词汇约1500条,准备对收录的词汇适配上方言语音。查了一些资料多是针对英语语音识别或汉语普通话语音识别的算法模型。有没有针对的方言语音识别模型,久久为期之后,想在方言语音识别尝试一下,不知是否有开源的识别模型。现在仅有千余条词汇,甚至语音采集都不知道遵循什么标准。诚望大牛赐教,立定,作揖。
崇鹂游客现在方言播音网站很多,只是简单的“输入汉字”→“播放音频”,有没有公司去搞方言识别技术,对其必要性和效益,我表示怀疑。
例如你想训练个模型去识别上海话,要哪些字词才能完整全面的代表上海话,很难说。当把上海、宁波、苏州、温州、客家等地区的集成后,会不会相互干扰,也难说。例如陈寅恪的恪,读成ko的方言就一大堆。
对于语言学家来说,现有的《中国语言资源保护工程》也已经足够用了。他们的思路并不是想完整的识别或复现某种方言,而是挖掘方言特色,分析其语音演变路径,总之找到某种方言在汉藏语系大范围里的共性和特性。只是抓一些典型的字词去采集,例如不同地区读太阳、月亮,怎么读,足以供给学术研究。
识别方言、复现方面似乎不是他们当前的工作重点,而是尽快救亡,在完全同化之前,在日渐趋同之间,采集到其语音特色。
泉说游客@崇鹏#136195
感谢回复。
方言播音网站这类网站倒还没注意到,能否赐个站名或站址。
必要性个人认为是有的,祖孙不能顺利交流的现象不是个别现象,有普遍性。
方言语音这块资源库多是高校或图书馆在开发研究。商业模式没做过调查,科大讯飞或地图导航可能有商用模式。
语保平台虽然资源足够多,但各地词汇也仅有1200条词汇。其他几个较大的预料资源库也仅在2000条左右,仅从方言词汇量来看相当大的词汇未收录。
一音多字甚至有音无法适配到文字的,个人觉得可以用便与书写的字或近意字代替。
崇鹂游客@泉说 #136197
所谓播音,是指语音播放,例如搜XX在线翻译等等,只是播放既定的音频文件,对于模型训练不是一回事了,通常也只是大片区,例如客家闽南粤语苏州上海,这些网站因为经费不足等因素也逐渐荒废,或转为手机APP了。类似讯飞翻译笔那种实时语音翻译的,尚没有看到,但微信好像很多年前就已经能识别粤语转化为文字,我没调查不确定这个功能使用热度如何
至于方言交流,我认为现在小孩不懂方言是动画片和儿歌没有方言版造成的,人在六岁之前学不会,就丢失了自然通悟的机会了,后期除非工作需要等像学英语一样,硬去学。而且据我观察,老人家讲方言,小孩讲普通话,双方都不会说、或说不利索,但都听得懂的,也能交流。所以对于花精力建设识别项目,我还是不看好的,但保持敬意吧。个人更看重还活着的人,录音存档、采集救亡一类的项目。
WiLL游客Whisper 是 OpenAI 研发并开源的一个自动语音识别(ASR,Automatic Speech Recognition)模型,他们通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高模型对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。目前,Whisper 已经有了很多变体,也成为很多 AI 应用构建时的必要组件。
最近,来自 HuggingFace 的团队提出了一种新变体 —— Distil-Whisper。这个变体是 Whisper 模型的蒸馏版,特点是模型小、速度快,而且准确度还很高,非常适合在要求低延迟或资源有限的环境中运行。不过,与能够处理多种语言的原始 Whisper 模型不同,Distil-Whisper 只能处理英文。
泉说游客谢谢🙏will,,非常好的建议。其实现在是两眼一抹黑,甚至语音采集都不知道遵循什么标准。普通手机录音不知道可不可以!
- 作者帖子
正在查看 6 个帖子:1-6 (共 6 个帖子)
正在查看 6 个帖子:1-6 (共 6 个帖子)
正在查看 6 个帖子:1-6 (共 6 个帖子)