Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率

简介: Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率


图片.png

/作者/肖彰宇

随着语音识别技术的发展,我们的算法模型从 CTC 升级为了 E2E(端到端),即将多个子模块(包括声学模型,发音模型,语言模型等)统一到同一个模型中进行联合优化,具有精度高、效率高、框架简洁的优势。

然而,各领域的从业者们在真实的业务场景中使用语音识别时,往往会遇到一些通用模型覆盖不好的业务相关关键词,例如医学领域的药名、金融领域的专业名称等。这种情况下识别的准确率会受到比较大的影响。为了解决业务关键词识别效果的文本定制问题,传统的解决方案是在识别过程中加入热词进行定向的词汇增强

在实际的应用场景中,我们发现 E2E 模型在定制领域的效果并不如 CTC的表现好,分析可能原因是相比于 CTC 模型,E2E 模型产生的候选文本概率分布十分尖锐,通过传统的在解码器中增加路径权重的方式较难产出预期的结果。

针对此问题,我们提出了基于 Contextual Transformer 的端到端语音识别文本定制技术。该技术在端到端模型中加入了为额外文本进行建模的 Contextual Encoder 模块,使得端到端模型具备了额外加文本进行定制增强的能力。

具体来说,在模型训练过程中,使用随机抓取的标注文本作为强化信息,使模型建立对特定输入的强化结构;在识别过程中,使用定制文本作为输入,则可对识别结果进行纠偏增强。


|| 模型结构

下图显示了传统热词和 Contextual Transformer 两种结构下的ASR系统框图,主要区别点在于定制热词文本在不同的位置进行增强。传统热词ASR在解码器处进行效果增强,我们选择在端到端模型处进行定制热词文本来增强效果

图片.png

具体的 Contextual Transformer 结构如下图所示。在 SAN-M Transfomer 的基础上加入热词编译模块 Contextual Encoder,与 Decoder 文本进行 MHA(Multi-Head Attention) 之后,与声学信息拼接到一起,经过 Decoder 的 FSMN 网络产出最终的识别文本。图片.png

具体的 Contextual Encoder 模块为单向 LSTM 结构,若输入为 n 个热词 w1, w2, ..., wn, 对应的字序列为

图片.png

那么 Contextual Encoder 转化出来的第 j 个热词 embedding 为:

图片.png

传入 Decoder 后,热词 embedding 作为 K, V,标注文本的 embedding 作为 Q,计算出 Multi-Head Attention 后,与声学 MHA 的输出拼接后,再完成 Decoder 的计算并产出候选结果。与直觉不同,训练过程中的定制热词文本与具体的测试业务场景无关,为保证模型的热词泛化能力,从训练 mini-batch 的标注文本中随机抽取组合而成。具体来说,以概率 P 从 mini-batch 中选取若干句标注,再从这些句子中随机选取不定长的连续字作为随机热词。此外,还需加入 <no-bias> 符作为无热词情况下的缺省选项,以及随机词作为负样本。生成随机热词的流程如下图所示:

图片.png

随机热词的训练使得 Contextual Transformer 模型具备了针对输入定制热词文本进行定向增强的能力,上述随机生成定制热词文本的方式,确保了模型面对不同领域热词情况下具有同样的泛化能力。因此,在测试阶段,使用业务场景给定的关键词作为定制热词文本,该模型可以有效提升业务关键词的召回率和整体的识别率。

|| 实验结果

Contextual Transformer 在包括政务、金融、能源、客服等业务领域测试集上的热词识别效果如下表所示:

图片.png

  • 整体上 E2E 模型相对于 CTC 识别率提升非常显著(14.17%->11.61%),但热词召回率 (Recall) 的提升仅 8%(76%->84%),弱于 CTC 模型的提升 12%(71%->83%)。
  • Contextual Transformer 模型上,不仅 CER 进一步减小到了 10.85%,同时热词的召回率提升达到了 19%(75%->94%),显著优于传统热词在 E2E 和 CTC 上的效果。
  • 此同时,由于传统热词的技术所限,支持的热词数量上限为 128 词。引入 Contextual Transformer 之后,新版的热词数量支持上限达到了 1000 词,经过实验验证,尽管热词数量增多带来了彼此之间的干扰,但 Recall 同样有 16% 的提升,CER Precision 的下降也在可接受的范围之内,如下表所示:

图片.png

|| Future work

基于 Contextual Transformer 的端到端语音识别文本定制技术,从热词的召回率和整体识别率的角度,显著地提升了端到端语音识别的文本定制能力,从而使得通用模型与具体业务之间的匹配程度更高,可更好地解决实际落地场景中的识别问题。目前,该技术已应用于达摩院听悟产品中,预计7月份在阿里云智能语音交互产品中上线。

除了孤立的热词优化以外,结合了解码器技术后的 Contextual Transformer 同样具备对连续文本的定向增强能力,通过即时检索相关 n 元文法作为动态定制文本的方式,可使得模型具备定制语言模型的优化能力。相关的工作仍处于探究中,该技术有潜力用一个模型解决通用的文本增强的需求。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
数据处理 计算机视觉 Python
【目标检测】指定划分COCO数据集训练(车类,行人类,狗类...)
【目标检测】指定划分COCO数据集训练(车类,行人类,狗类...)
6011 0
|
机器学习/深度学习 人工智能 算法
技术开源|FunASR升级第三代热词方案
技术开源|FunASR升级第三代热词方案
4086 62
|
小程序 JavaScript 开发工具
Uniapp 对接抖音短剧播放器 video-player 坑点解决
Uniapp 对接抖音短剧播放器 video-player 坑点解决
794 1
|
8月前
|
人工智能 Java API
后端开发必看:零代码实现存量服务改造成MCP服务
本文介绍如何通过 **Nacos** 和 **Higress** 实现存量 Spring Boot 服务的零代码改造,使其支持 MCP 协议,供 AI Agent 调用。全程无需修改业务代码,仅通过配置完成服务注册、协议转换与工具映射,显著降低改造成本,提升服务的可集成性与智能化能力。
2253 1
|
机器学习/深度学习 存储 自然语言处理
SeACo-Paraformer
【6月更文挑战第14天】
988 6
|
机器学习/深度学习 人工智能 达摩院
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。
2827 3
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
|
Rust NoSQL Linux
Rocky Linux 9.5 正式版发布 - RHEL 100% 1:1 兼容免费发行版
Rocky Linux 9.5 正式版发布 - RHEL 100% 1:1 兼容免费发行版
1628 2
Rocky Linux 9.5 正式版发布 - RHEL 100% 1:1 兼容免费发行版
|
传感器 监控 Linux
农业温室大棚数据监控系统的设计与实现
农业温室大棚数据监控系统的设计与实现
1345 0
|
机器学习/深度学习 人工智能 自然语言处理
CosyVoice 与 SenseVoice:阿里FunAudioLLM两大语音生成项目的深度评测
近年来,基于大模型的语音人工智能技术发展迅猛,为自然语音人机交互带来新的可能。通义语音大模型无疑是这一领域的佼佼者。它涵盖了语音理解与语音生成两大核心能力,可支持多种语音任务,包括多语种语音识别、语种识别、情感识别、声音事件检测以及语音合成等
4873 1
|
人工智能 安全 Java
当一家公司80%的程序员用AI写代码
当一家公司80%的程序员用AI写代码
1109 6

热门文章

最新文章

相关产品

  • 智能语音交互