【技术揭秘】高性能粤语语音识别模型构建方案

简介: 随着人工智能技术的飞速发展,语音识别(Automatic SpeechRecognition)的应用越来越广泛,对于多语种多口音语音识别的需求也在日渐增加。虽然语音识别系统的基本原理和框架是不受限于语种的,在建立一个新语种的ASR模型时,还是需要结合到语言本身的特点,才能得到较好的效果。
来源 阿里语音AI 公众号

随着人工智能技术的飞速发展,语音识别(Automatic SpeechRecognition)的应用越来越广泛,对于多语种多口音语音识别的需求也在日渐增加。虽然语音识别系统的基本原理和框架是不受限于语种的,在建立一个新语种的ASR模型时,还是需要结合到语言本身的特点,才能得到较好的效果。

粤语流通于广东、广西、香港、澳门及海外华人社区,全球有近1.2亿人口使用粤语。在香港和澳门,大多数人口使用粤语为母语,具有官方语言的地位。粤语的代表音约定俗成以广州粤语口音为标准。香港和澳门粤语跟广州粤语在口音并无明显分别,但是因香港和澳门在不同社会体制下的影响,以致一些用词有所不同。而广州以外的其他广东及广西地区的粤语与广州粤语在口音上则存在着不同程度的差异。本文主要介绍阿里巴巴粤语语音识别引擎的开发过程中的一些体会。

声学模型方面,粤语识别引擎是基于阿里巴巴自研的DFSMN-CTC建模方法。CTC(Connectionist Temporal Classification) 是目前建立端到端系统最常用的方法。CTC提出一个基于序列的建模方法,利用一个循环网络来表示不同长度的输入序列跟输出序列之间的映射关系。而语音识别的目标是把语音特征和输出的文本序列之间的对应关系进行建模,因而CTC准则对于语音识别的场景特别适用。FSMN(Feedforward Sequential Memory Networks)提出在传统的全连接神经网络中添加可学习的记忆模块(memory block),用来在层之间来传递上下文相关的信息。而DFSMN(Deep FSMN)是一种改进的FSMN结构,主要解决在训练深层网络时容易发生的梯度消失问题:通过在记忆模块之间添加跳转连接(skip connection),从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。

粤语和普通话同属于汉语系,在基本语法和发音单元上有一些共同点。因此我们在建立粤语ASR的时候,是基于已有的普通话模型,通过迁移学习(Transfer Learning)的方法来得到的。迁移学习是属于机器学习的一个方法,主要的启发来自人类的知识获取过程。人类在学习新知识的时侯,是一个循序渐进的积累过程:从已掌握的知识通过推理和抽象,结合新的样本掌控新的知识。简单来说,迁移学习的具体方法是把训练好的模型参数迁移到新的领域,以帮助新领域模型训练。迁移学习的方法被证明对数据量缺乏的场景有明显帮助,例如在多语言ASR和低资源语种ASR的建设。由于深层神经网络的特点是从低级到高级逐步表示语言信息,较低层的网络表征的是低级的语言相关特征,如基础发音单元等,所以训练好的普通话模型已经包含了汉语言相关的基础声学信息。图1给出了我们建立粤语声学模型的示意图。在训练粤语模型时,首先去除普通话模型的softmax输出层,仅保留普通话模型的低层网络,然后利用这个网络作为初始模型来进行粤语模型训练和迭代。这种方法的好处是我们可以用相对较少量的粤语标注数据得到较好的模型效果。

尽管粤语和跟普通话作为同语系有一些共性,可是粤语作为一个有悠久历史,且在多个地区使用的方言有其自身的特点:1)各地区的用词和发音方式存在着不同程度的差异。例如,在广东会更多使用‘上课’,而香港会更多使用‘上堂’。另外,香港不少人的粤语不区分/n/声母与/l/声母,不过这两个声母在广东某些地区的粤语中可以清晰地区分。2)符合粤语语法,词汇的粤语白话文文本的获取困难。粤语使用者在正式场合里普遍使用普通话书写系统,因此其语法,词汇与标准汉语或普通话相符,但是与粤语白话文的词汇和语法差异很大。3)粤语白话文缺乏官方标准,书写比较混乱。在非正式场合如网上讨论区,人们书写粤语白话文时,用字一般依从民间约定俗成的惯例,错别字、以借音字书写粤语的情况时常出现,还有一些字词存在不同书写方法。

image.png

针对上述列举出的粤语的特点,为了尽可能的覆盖粤语本身的多样性,在数据采集方面,我们有目标的采集和抓取在口音和用字等方面有代表性地区的数据。在建模单元的选取方面,我们采用粤语单字为基本的建模单元。考虑到单字的使用频繁程度,同音不同字的情况,我们把粤语文本参考对应的粤拼 (JyutPing) 进行聚类,对于同音字统一选取出现率最高的单字来表示发音。对于多音字的情况,根据上下文决定发音。

如何获取大量的粤语白话文文本是建立粤语ASR模型的一个关键和难点。为了解决这个问题,我们利用少量平行文本,训练出一个普通话到粤语的机器翻译模型,利用该模型大规模生产出粤语白话文文本。例如:

image.png

为解决书写混乱的问题,我们在标注音频或处理文本时,对存在不同书写方法的字词采用“歧义最小”原则,从而达到容易转换以满足不同场景和应用的需要。

为了评估ASR模型的性能,我们收集了粤语电话信道,多个不同领域和场景上的对话类测试集。口音方面主要包括香港和广东口音,录音条件既包含每个说话人占用不同轨道的分轨录音,也包括多个说话人同轨的录音,内容则覆盖了电商,金融和政务等领域。

利用上述所说的DFSMN-CTC建模方法,配合迁移学习、也得益于DFSMN在深层模型训练上的优势,粤语识别系统在上述电话粤语测试集的识别效果上,得到了相对基础模型20%的相对提升。目前最新的粤语语音识别模型已经在公共云官网正式上线,欢迎前往体验。

智能语音产品官网链接:https://ai.aliyun.com/nls

image.png

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
1月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
54 4
|
2月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
75 1
|
2月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
71 3
|
1月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
42 0
|
3月前
|
自然语言处理 搜索推荐 数据挖掘
*语音识别技术将深刻影响未来的教育模式
【6月更文挑战第24天】*语音识别技术将深刻影响未来的教育模式
70 10
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
语音识别技术的现状与未来展望
【6月更文挑战第15天】**语音识别技术现状与未来:** 随AI发展,语音识别精度与速度大幅提升,应用广泛,从手机助手到智能家居。深度学习驱动技术进步,跨语言及多模态交互成为新趋势。未来,精度、鲁棒性将增强,深度学习将进一步融合,个性化和情感化交互将提升用户体验。跨领域融合与生态共建将推动技术普及,为各行业带来更多智能解决方案。但同时也需关注技术伦理和社会影响。
|
2月前
|
机器学习/深度学习 算法 数据可视化
Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
利用深度学习提升语音识别准确率的技术探讨
传统的语音识别技术在面对复杂的语音场景时常常表现出准确率不高的问题。本文探讨了如何利用深度学习技术,特别是深度神经网络,来提升语音识别的精度。通过分析深度学习在语音处理中的应用以及优势,我们展示了如何结合最新的研究成果和算法来解决现有技术的局限性,进一步推动语音识别技术的发展。 【7月更文挑战第3天】
|
4月前
|
机器学习/深度学习 人工智能 算法
构建一个基于AI的语音识别系统:技术深度解析与实战指南
【5月更文挑战第28天】本文深入探讨了构建基于AI的语音识别系统,涵盖基本原理、关键技术及实战指南。关键步骤包括语音信号预处理、特征提取、声学模型、语言模型和解码器。深度学习在声学和语言模型中发挥关键作用,如RNN、LSTM和Transformer。实战部分涉及数据收集、预处理、模型训练、解码器实现及系统评估。通过本文,读者可了解构建语音识别系统的基本流程和技巧。

热门文章

最新文章

相关产品

  • 智能语音交互