Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率

简介: Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率


图片.png

/作者/肖彰宇

随着语音识别技术的发展,我们的算法模型从 CTC 升级为了 E2E(端到端),即将多个子模块(包括声学模型,发音模型,语言模型等)统一到同一个模型中进行联合优化,具有精度高、效率高、框架简洁的优势。

然而,各领域的从业者们在真实的业务场景中使用语音识别时,往往会遇到一些通用模型覆盖不好的业务相关关键词,例如医学领域的药名、金融领域的专业名称等。这种情况下识别的准确率会受到比较大的影响。为了解决业务关键词识别效果的文本定制问题,传统的解决方案是在识别过程中加入热词进行定向的词汇增强

在实际的应用场景中,我们发现 E2E 模型在定制领域的效果并不如 CTC的表现好,分析可能原因是相比于 CTC 模型,E2E 模型产生的候选文本概率分布十分尖锐,通过传统的在解码器中增加路径权重的方式较难产出预期的结果。

针对此问题,我们提出了基于 Contextual Transformer 的端到端语音识别文本定制技术。该技术在端到端模型中加入了为额外文本进行建模的 Contextual Encoder 模块,使得端到端模型具备了额外加文本进行定制增强的能力。

具体来说,在模型训练过程中,使用随机抓取的标注文本作为强化信息,使模型建立对特定输入的强化结构;在识别过程中,使用定制文本作为输入,则可对识别结果进行纠偏增强。


|| 模型结构

下图显示了传统热词和 Contextual Transformer 两种结构下的ASR系统框图,主要区别点在于定制热词文本在不同的位置进行增强。传统热词ASR在解码器处进行效果增强,我们选择在端到端模型处进行定制热词文本来增强效果

图片.png

具体的 Contextual Transformer 结构如下图所示。在 SAN-M Transfomer 的基础上加入热词编译模块 Contextual Encoder,与 Decoder 文本进行 MHA(Multi-Head Attention) 之后,与声学信息拼接到一起,经过 Decoder 的 FSMN 网络产出最终的识别文本。图片.png

具体的 Contextual Encoder 模块为单向 LSTM 结构,若输入为 n 个热词 w1, w2, ..., wn, 对应的字序列为

图片.png

那么 Contextual Encoder 转化出来的第 j 个热词 embedding 为:

图片.png

传入 Decoder 后,热词 embedding 作为 K, V,标注文本的 embedding 作为 Q,计算出 Multi-Head Attention 后,与声学 MHA 的输出拼接后,再完成 Decoder 的计算并产出候选结果。与直觉不同,训练过程中的定制热词文本与具体的测试业务场景无关,为保证模型的热词泛化能力,从训练 mini-batch 的标注文本中随机抽取组合而成。具体来说,以概率 P 从 mini-batch 中选取若干句标注,再从这些句子中随机选取不定长的连续字作为随机热词。此外,还需加入 <no-bias> 符作为无热词情况下的缺省选项,以及随机词作为负样本。生成随机热词的流程如下图所示:

图片.png

随机热词的训练使得 Contextual Transformer 模型具备了针对输入定制热词文本进行定向增强的能力,上述随机生成定制热词文本的方式,确保了模型面对不同领域热词情况下具有同样的泛化能力。因此,在测试阶段,使用业务场景给定的关键词作为定制热词文本,该模型可以有效提升业务关键词的召回率和整体的识别率。

|| 实验结果

Contextual Transformer 在包括政务、金融、能源、客服等业务领域测试集上的热词识别效果如下表所示:

图片.png

  • 整体上 E2E 模型相对于 CTC 识别率提升非常显著(14.17%->11.61%),但热词召回率 (Recall) 的提升仅 8%(76%->84%),弱于 CTC 模型的提升 12%(71%->83%)。
  • Contextual Transformer 模型上,不仅 CER 进一步减小到了 10.85%,同时热词的召回率提升达到了 19%(75%->94%),显著优于传统热词在 E2E 和 CTC 上的效果。
  • 此同时,由于传统热词的技术所限,支持的热词数量上限为 128 词。引入 Contextual Transformer 之后,新版的热词数量支持上限达到了 1000 词,经过实验验证,尽管热词数量增多带来了彼此之间的干扰,但 Recall 同样有 16% 的提升,CER Precision 的下降也在可接受的范围之内,如下表所示:

图片.png

|| Future work

基于 Contextual Transformer 的端到端语音识别文本定制技术,从热词的召回率和整体识别率的角度,显著地提升了端到端语音识别的文本定制能力,从而使得通用模型与具体业务之间的匹配程度更高,可更好地解决实际落地场景中的识别问题。目前,该技术已应用于达摩院听悟产品中,预计7月份在阿里云智能语音交互产品中上线。

除了孤立的热词优化以外,结合了解码器技术后的 Contextual Transformer 同样具备对连续文本的定向增强能力,通过即时检索相关 n 元文法作为动态定制文本的方式,可使得模型具备定制语言模型的优化能力。相关的工作仍处于探究中,该技术有潜力用一个模型解决通用的文本增强的需求。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
7月前
|
机器学习/深度学习 人工智能 计算机视觉
多模态模型可能是大模型的终局
多模态模型可能是大模型的终局
|
5天前
|
存储 人工智能 文字识别
Megrez-3B-Omni:无问芯穹开源最强端侧全模态模型,支持理解图像、音频和文本三种模态数据
Megrez-3B-Omni 是无问芯穹开源的端侧全模态理解模型,支持图像、音频和文本三种模态数据的处理,具备高精度和高推理速度,适用于多种应用场景。
66 19
Megrez-3B-Omni:无问芯穹开源最强端侧全模态模型,支持理解图像、音频和文本三种模态数据
|
2天前
|
机器学习/深度学习 人工智能 调度
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
中国科学技术大学研究团队提出了一种新的评估指标——模态融合率(MIR),用于评估多模态预训练模型的对齐质量。MIR通过衡量不同模态之间的分布距离,有效反映了模型的对齐质量,并在多种训练配置下表现出良好的鲁棒性和通用性。实验结果表明,MIR能够准确评估训练数据选择、训练策略调度和模型架构设计对预训练结果的影响,为多模态学习提供了可靠的方法。
29 22
|
2月前
|
人工智能 计算机视觉
时序=图像?无需微调,视觉MAE跨界比肩最强时序预测大模型
【10月更文挑战第15天】《VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters》提出了一种创新方法,通过将时序数据转化为图像,利用视觉掩码自编码器(MAE)进行自监督预训练,实现时序预测。该模型在未进行任何时序域适配的情况下,展现了出色的零样本预测性能,并且通过少量微调即可达到最先进水平。这一研究为时序预测领域带来了新希望,同时也引发了关于模型解释性和可信度的讨论。
94 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
音频基座大模型FunAudioLLM评测
通义语音团队最新开源了音频基座大模型FunAudioLLM,包含两大模型SenseVoice和CosyVoice。本文对这两种大模型进行整体的评测。
101 1
音频基座大模型FunAudioLLM评测
|
3月前
|
自然语言处理 数据处理
情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent
【9月更文挑战第24天】PanoSent是一种全新的多模态对话情感分析框架,旨在全景式地提取和分析情感元素,包括情感六元组提取与情感翻转分析两大任务。此框架依托大规模、高质量的多模态数据集PanoSent,涵盖文本、图像、音频等多种模态及多种语言,适应不同应用场景。为解决这些任务,研究人员提出了Chain-of-Sentiment推理框架,结合多模态大语言模型Sentica,实现细粒度的情感分析。尽管PanoSent在情感分析任务上表现优异,但仍面临多模态数据处理和跨领域适用性的挑战。
77 2
|
3月前
|
机器学习/深度学习 自然语言处理 人机交互
音频基座大模型FunAudioLLM体验评测
一文带你详细了解音频基座大模型FunAudioLLM
441 5
|
3月前
|
机器学习/深度学习 自然语言处理 语音技术
FunAudioLLM与其他语音模型多维度对比简析
FunAudioLLM与其他语音模型多维度对比简析
129 13
|
3月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
90 10
|
4月前
|
数据采集 机器学习/深度学习 自然语言处理
如何提升模型对特定小语种的理解和生成能力?
如何提升模型对特定小语种的理解和生成能力?

相关产品

  • 智能语音交互
  • 下一篇
    DataWorks