【技术揭秘】高性能粤语语音识别模型构建方案

简介: 随着人工智能技术的飞速发展,语音识别(Automatic SpeechRecognition)的应用越来越广泛,对于多语种多口音语音识别的需求也在日渐增加。虽然语音识别系统的基本原理和框架是不受限于语种的,在建立一个新语种的ASR模型时,还是需要结合到语言本身的特点,才能得到较好的效果。
来源 阿里语音AI 公众号

随着人工智能技术的飞速发展,语音识别(Automatic SpeechRecognition)的应用越来越广泛,对于多语种多口音语音识别的需求也在日渐增加。虽然语音识别系统的基本原理和框架是不受限于语种的,在建立一个新语种的ASR模型时,还是需要结合到语言本身的特点,才能得到较好的效果。

粤语流通于广东、广西、香港、澳门及海外华人社区,全球有近1.2亿人口使用粤语。在香港和澳门,大多数人口使用粤语为母语,具有官方语言的地位。粤语的代表音约定俗成以广州粤语口音为标准。香港和澳门粤语跟广州粤语在口音并无明显分别,但是因香港和澳门在不同社会体制下的影响,以致一些用词有所不同。而广州以外的其他广东及广西地区的粤语与广州粤语在口音上则存在着不同程度的差异。本文主要介绍阿里巴巴粤语语音识别引擎的开发过程中的一些体会。

声学模型方面,粤语识别引擎是基于阿里巴巴自研的DFSMN-CTC建模方法。CTC(Connectionist Temporal Classification) 是目前建立端到端系统最常用的方法。CTC提出一个基于序列的建模方法,利用一个循环网络来表示不同长度的输入序列跟输出序列之间的映射关系。而语音识别的目标是把语音特征和输出的文本序列之间的对应关系进行建模,因而CTC准则对于语音识别的场景特别适用。FSMN(Feedforward Sequential Memory Networks)提出在传统的全连接神经网络中添加可学习的记忆模块(memory block),用来在层之间来传递上下文相关的信息。而DFSMN(Deep FSMN)是一种改进的FSMN结构,主要解决在训练深层网络时容易发生的梯度消失问题:通过在记忆模块之间添加跳转连接(skip connection),从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。

粤语和普通话同属于汉语系,在基本语法和发音单元上有一些共同点。因此我们在建立粤语ASR的时候,是基于已有的普通话模型,通过迁移学习(Transfer Learning)的方法来得到的。迁移学习是属于机器学习的一个方法,主要的启发来自人类的知识获取过程。人类在学习新知识的时侯,是一个循序渐进的积累过程:从已掌握的知识通过推理和抽象,结合新的样本掌控新的知识。简单来说,迁移学习的具体方法是把训练好的模型参数迁移到新的领域,以帮助新领域模型训练。迁移学习的方法被证明对数据量缺乏的场景有明显帮助,例如在多语言ASR和低资源语种ASR的建设。由于深层神经网络的特点是从低级到高级逐步表示语言信息,较低层的网络表征的是低级的语言相关特征,如基础发音单元等,所以训练好的普通话模型已经包含了汉语言相关的基础声学信息。图1给出了我们建立粤语声学模型的示意图。在训练粤语模型时,首先去除普通话模型的softmax输出层,仅保留普通话模型的低层网络,然后利用这个网络作为初始模型来进行粤语模型训练和迭代。这种方法的好处是我们可以用相对较少量的粤语标注数据得到较好的模型效果。

尽管粤语和跟普通话作为同语系有一些共性,可是粤语作为一个有悠久历史,且在多个地区使用的方言有其自身的特点:1)各地区的用词和发音方式存在着不同程度的差异。例如,在广东会更多使用‘上课’,而香港会更多使用‘上堂’。另外,香港不少人的粤语不区分/n/声母与/l/声母,不过这两个声母在广东某些地区的粤语中可以清晰地区分。2)符合粤语语法,词汇的粤语白话文文本的获取困难。粤语使用者在正式场合里普遍使用普通话书写系统,因此其语法,词汇与标准汉语或普通话相符,但是与粤语白话文的词汇和语法差异很大。3)粤语白话文缺乏官方标准,书写比较混乱。在非正式场合如网上讨论区,人们书写粤语白话文时,用字一般依从民间约定俗成的惯例,错别字、以借音字书写粤语的情况时常出现,还有一些字词存在不同书写方法。

image.png

针对上述列举出的粤语的特点,为了尽可能的覆盖粤语本身的多样性,在数据采集方面,我们有目标的采集和抓取在口音和用字等方面有代表性地区的数据。在建模单元的选取方面,我们采用粤语单字为基本的建模单元。考虑到单字的使用频繁程度,同音不同字的情况,我们把粤语文本参考对应的粤拼 (JyutPing) 进行聚类,对于同音字统一选取出现率最高的单字来表示发音。对于多音字的情况,根据上下文决定发音。

如何获取大量的粤语白话文文本是建立粤语ASR模型的一个关键和难点。为了解决这个问题,我们利用少量平行文本,训练出一个普通话到粤语的机器翻译模型,利用该模型大规模生产出粤语白话文文本。例如:

image.png

为解决书写混乱的问题,我们在标注音频或处理文本时,对存在不同书写方法的字词采用“歧义最小”原则,从而达到容易转换以满足不同场景和应用的需要。

为了评估ASR模型的性能,我们收集了粤语电话信道,多个不同领域和场景上的对话类测试集。口音方面主要包括香港和广东口音,录音条件既包含每个说话人占用不同轨道的分轨录音,也包括多个说话人同轨的录音,内容则覆盖了电商,金融和政务等领域。

利用上述所说的DFSMN-CTC建模方法,配合迁移学习、也得益于DFSMN在深层模型训练上的优势,粤语识别系统在上述电话粤语测试集的识别效果上,得到了相对基础模型20%的相对提升。目前最新的粤语语音识别模型已经在公共云官网正式上线,欢迎前往体验。

智能语音产品官网链接:https://ai.aliyun.com/nls

image.png

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12206 116
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
11天前
|
机器学习/深度学习 PyTorch 语音技术
语音识别模型
Whisper 是 OpenAI 推出的语音处理项目,基于深度学习,具备高度智能化和准确性的语音识别、翻译和生成能力。通过丰富的数据集和先进的注意力机制,Whisper 在多种语言环境下表现出色,支持语音识别、翻译、口语识别和语音活动检测等多种任务。用户可以通过 Python 代码或命令行轻松使用 Whisper,完成高质量的语音处理任务。官网:https://openai.com/research/whisper,GitHub:https://github.com/openai/whisper。
19 2
|
23天前
|
机器学习/深度学习 算法 语音技术
超越传统模型:探讨门控循环单元(GRU)在语音识别领域的最新进展与挑战
【10月更文挑战第7天】随着人工智能技术的不断进步,语音识别已经从一个相对小众的研究领域发展成为日常生活中的常见技术。无论是智能手机上的语音助手,还是智能家居设备,甚至是自动字幕生成系统,都离不开高质量的语音识别技术的支持。在众多用于语音识别的技术中,基于深度学习的方法尤其是递归神经网络(RNNs)及其变体如长短期记忆网络(LSTMs)和门控循环单元(GRUs)已经成为了研究和应用的热点。
19 2
|
1天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
12 0
|
2天前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
8 0
|
3月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
3月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
86 4
|
4月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
93 1
|
4月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
169 3

热门文章

最新文章

相关产品

  • 智能语音交互