Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率

简介: Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率

/作者/肖彰宇

随着语音识别技术的发展,我们的算法模型从 CTC 升级为了 E2E(端到端),即将多个子模块(包括声学模型,发音模型,语言模型等)统一到同一个模型中进行联合优化,具有精度高、效率高、框架简洁的优势。

然而,各领域的从业者们在真实的业务场景中使用语音识别时,往往会遇到一些通用模型覆盖不好的业务相关关键词,例如医学领域的药名、金融领域的专业名称等。这种情况下识别的准确率会受到比较大的影响。为了解决业务关键词识别效果的文本定制问题,传统的解决方案是在识别过程中加入热词进行定向的词汇增强

在实际的应用场景中,我们发现 E2E 模型在定制领域的效果并不如 CTC的表现好,分析可能原因是相比于 CTC 模型,E2E 模型产生的候选文本概率分布十分尖锐,通过传统的在解码器中增加路径权重的方式较难产出预期的结果。

针对此问题,我们提出了基于 Contextual Transformer 的端到端语音识别文本定制技术。该技术在端到端模型中加入了为额外文本进行建模的 Contextual Encoder 模块,使得端到端模型具备了额外加文本进行定制增强的能力。

具体来说,在模型训练过程中,使用随机抓取的标注文本作为强化信息,使模型建立对特定输入的强化结构;在识别过程中,使用定制文本作为输入,则可对识别结果进行纠偏增强。


|| 模型结构

下图显示了传统热词和 Contextual Transformer 两种结构下的ASR系统框图,主要区别点在于定制热词文本在不同的位置进行增强。传统热词ASR在解码器处进行效果增强,我们选择在端到端模型处进行定制热词文本来增强效果

具体的 Contextual Transformer 结构如下图所示。在 SAN-M Transfomer 的基础上加入热词编译模块 Contextual Encoder,与 Decoder 文本进行 MHA(Multi-Head Attention) 之后,与声学信息拼接到一起,经过 Decoder 的 FSMN 网络产出最终的识别文本。具体的 Contextual Encoder 模块为单向 LSTM 结构,若输入为 n 个热词 w1, w2, ..., wn, 对应的字序列为

那么 Contextual Encoder 转化出来的第 j 个热词 embedding 为:

传入 Decoder 后,热词 embedding 作为 K, V,标注文本的 embedding 作为 Q,计算出 Multi-Head Attention 后,与声学 MHA 的输出拼接后,再完成 Decoder 的计算并产出候选结果。与直觉不同,训练过程中的定制热词文本与具体的测试业务场景无关,为保证模型的热词泛化能力,从训练 mini-batch 的标注文本中随机抽取组合而成。具体来说,以概率 P 从 mini-batch 中选取若干句标注,再从这些句子中随机选取不定长的连续字作为随机热词。此外,还需加入 <no-bias> 符作为无热词情况下的缺省选项,以及随机词作为负样本。生成随机热词的流程如下图所示:

随机热词的训练使得 Contextual Transformer 模型具备了针对输入定制热词文本进行定向增强的能力,上述随机生成定制热词文本的方式,确保了模型面对不同领域热词情况下具有同样的泛化能力。因此,在测试阶段,使用业务场景给定的关键词作为定制热词文本,该模型可以有效提升业务关键词的召回率和整体的识别率。

|| 实验结果

Contextual Transformer 在包括政务、金融、能源、客服等业务领域测试集上的热词识别效果如下表所示:

  • 整体上 E2E 模型相对于 CTC 识别率提升非常显著(14.17%->11.61%),但热词召回率 (Recall) 的提升仅 8%(76%->84%),弱于 CTC 模型的提升 12%(71%->83%)。
  • Contextual Transformer 模型上,不仅 CER 进一步减小到了 10.85%,同时热词的召回率提升达到了 19%(75%->94%),显著优于传统热词在 E2E 和 CTC 上的效果。
  • 此同时,由于传统热词的技术所限,支持的热词数量上限为 128 词。引入 Contextual Transformer 之后,新版的热词数量支持上限达到了 1000 词,经过实验验证,尽管热词数量增多带来了彼此之间的干扰,但 Recall 同样有 16% 的提升,CER Precision 的下降也在可接受的范围之内,如下表所示:

|| Future work

基于 Contextual Transformer 的端到端语音识别文本定制技术,从热词的召回率和整体识别率的角度,显著地提升了端到端语音识别的文本定制能力,从而使得通用模型与具体业务之间的匹配程度更高,可更好地解决实际落地场景中的识别问题。目前,该技术已应用于达摩院听悟产品中,预计7月份在阿里云智能语音交互产品中上线。

除了孤立的热词优化以外,结合了解码器技术后的 Contextual Transformer 同样具备对连续文本的定向增强能力,通过即时检索相关 n 元文法作为动态定制文本的方式,可使得模型具备定制语言模型的优化能力。相关的工作仍处于探究中,该技术有潜力用一个模型解决通用的文本增强的需求。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
5月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12331 116
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
24天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
52 0
|
25天前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
42 0
|
4月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
89 4
|
4月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
5月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
99 1
|
5月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
200 3
|
4月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
69 0
|
5月前
|
达摩院 语音技术 异构计算
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg

相关产品

  • 智能语音交互