Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率

简介: Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率


图片.png

/作者/肖彰宇

随着语音识别技术的发展,我们的算法模型从 CTC 升级为了 E2E(端到端),即将多个子模块(包括声学模型,发音模型,语言模型等)统一到同一个模型中进行联合优化,具有精度高、效率高、框架简洁的优势。

然而,各领域的从业者们在真实的业务场景中使用语音识别时,往往会遇到一些通用模型覆盖不好的业务相关关键词,例如医学领域的药名、金融领域的专业名称等。这种情况下识别的准确率会受到比较大的影响。为了解决业务关键词识别效果的文本定制问题,传统的解决方案是在识别过程中加入热词进行定向的词汇增强

在实际的应用场景中,我们发现 E2E 模型在定制领域的效果并不如 CTC的表现好,分析可能原因是相比于 CTC 模型,E2E 模型产生的候选文本概率分布十分尖锐,通过传统的在解码器中增加路径权重的方式较难产出预期的结果。

针对此问题,我们提出了基于 Contextual Transformer 的端到端语音识别文本定制技术。该技术在端到端模型中加入了为额外文本进行建模的 Contextual Encoder 模块,使得端到端模型具备了额外加文本进行定制增强的能力。

具体来说,在模型训练过程中,使用随机抓取的标注文本作为强化信息,使模型建立对特定输入的强化结构;在识别过程中,使用定制文本作为输入,则可对识别结果进行纠偏增强。


|| 模型结构

下图显示了传统热词和 Contextual Transformer 两种结构下的ASR系统框图,主要区别点在于定制热词文本在不同的位置进行增强。传统热词ASR在解码器处进行效果增强,我们选择在端到端模型处进行定制热词文本来增强效果

图片.png

具体的 Contextual Transformer 结构如下图所示。在 SAN-M Transfomer 的基础上加入热词编译模块 Contextual Encoder,与 Decoder 文本进行 MHA(Multi-Head Attention) 之后,与声学信息拼接到一起,经过 Decoder 的 FSMN 网络产出最终的识别文本。图片.png

具体的 Contextual Encoder 模块为单向 LSTM 结构,若输入为 n 个热词 w1, w2, ..., wn, 对应的字序列为

图片.png

那么 Contextual Encoder 转化出来的第 j 个热词 embedding 为:

图片.png

传入 Decoder 后,热词 embedding 作为 K, V,标注文本的 embedding 作为 Q,计算出 Multi-Head Attention 后,与声学 MHA 的输出拼接后,再完成 Decoder 的计算并产出候选结果。与直觉不同,训练过程中的定制热词文本与具体的测试业务场景无关,为保证模型的热词泛化能力,从训练 mini-batch 的标注文本中随机抽取组合而成。具体来说,以概率 P 从 mini-batch 中选取若干句标注,再从这些句子中随机选取不定长的连续字作为随机热词。此外,还需加入 <no-bias> 符作为无热词情况下的缺省选项,以及随机词作为负样本。生成随机热词的流程如下图所示:

图片.png

随机热词的训练使得 Contextual Transformer 模型具备了针对输入定制热词文本进行定向增强的能力,上述随机生成定制热词文本的方式,确保了模型面对不同领域热词情况下具有同样的泛化能力。因此,在测试阶段,使用业务场景给定的关键词作为定制热词文本,该模型可以有效提升业务关键词的召回率和整体的识别率。

|| 实验结果

Contextual Transformer 在包括政务、金融、能源、客服等业务领域测试集上的热词识别效果如下表所示:

图片.png

  • 整体上 E2E 模型相对于 CTC 识别率提升非常显著(14.17%->11.61%),但热词召回率 (Recall) 的提升仅 8%(76%->84%),弱于 CTC 模型的提升 12%(71%->83%)。
  • Contextual Transformer 模型上,不仅 CER 进一步减小到了 10.85%,同时热词的召回率提升达到了 19%(75%->94%),显著优于传统热词在 E2E 和 CTC 上的效果。
  • 此同时,由于传统热词的技术所限,支持的热词数量上限为 128 词。引入 Contextual Transformer 之后,新版的热词数量支持上限达到了 1000 词,经过实验验证,尽管热词数量增多带来了彼此之间的干扰,但 Recall 同样有 16% 的提升,CER Precision 的下降也在可接受的范围之内,如下表所示:

图片.png

|| Future work

基于 Contextual Transformer 的端到端语音识别文本定制技术,从热词的召回率和整体识别率的角度,显著地提升了端到端语音识别的文本定制能力,从而使得通用模型与具体业务之间的匹配程度更高,可更好地解决实际落地场景中的识别问题。目前,该技术已应用于达摩院听悟产品中,预计7月份在阿里云智能语音交互产品中上线。

除了孤立的热词优化以外,结合了解码器技术后的 Contextual Transformer 同样具备对连续文本的定向增强能力,通过即时检索相关 n 元文法作为动态定制文本的方式,可使得模型具备定制语言模型的优化能力。相关的工作仍处于探究中,该技术有潜力用一个模型解决通用的文本增强的需求。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
打赏
0
0
0
0
1034
分享
相关文章
OSUM:告别ASR单一功能,西工大开源的语音大模型会「读心」!识别+情感分析+年龄预测等8大任务1个模型全搞定
OSUM 是西北工业大学开发的开源语音理解模型,支持语音识别、情感分析、说话者性别分类等多种任务,基于 ASR+X 训练策略,具有高效和泛化能力强的特点。
182 8
OSUM:告别ASR单一功能,西工大开源的语音大模型会「读心」!识别+情感分析+年龄预测等8大任务1个模型全搞定
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。
878 18
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
中国科学技术大学研究团队提出了一种新的评估指标——模态融合率(MIR),用于评估多模态预训练模型的对齐质量。MIR通过衡量不同模态之间的分布距离,有效反映了模型的对齐质量,并在多种训练配置下表现出良好的鲁棒性和通用性。实验结果表明,MIR能够准确评估训练数据选择、训练策略调度和模型架构设计对预训练结果的影响,为多模态学习提供了可靠的方法。
160 22
|
6月前
|
突破视频多模态大模型瓶颈!合成数据立大功,项目已开源
针对视频多模态大模型(LMMs)因缺乏高质量原始数据而发展受限的问题,研究人员开发了LLaVA-Video-178K数据集,包含178,510个视频,涵盖详细字幕、开放性问题回答和多项选择题。此数据集通过结合GPT-4o和人工标注,实现了广泛视频来源、动态视频选择、递归字幕生成及多样化任务设计。基于此数据集训练的LLaVA-Video模型,在视频字幕、问答等任务上表现优异,且已开源,助力视频LMM的研究与发展。
133 7
情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent
【9月更文挑战第24天】PanoSent是一种全新的多模态对话情感分析框架,旨在全景式地提取和分析情感元素,包括情感六元组提取与情感翻转分析两大任务。此框架依托大规模、高质量的多模态数据集PanoSent,涵盖文本、图像、音频等多种模态及多种语言,适应不同应用场景。为解决这些任务,研究人员提出了Chain-of-Sentiment推理框架,结合多模态大语言模型Sentica,实现细粒度的情感分析。尽管PanoSent在情感分析任务上表现优异,但仍面临多模态数据处理和跨领域适用性的挑战。
192 2
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
185 10
3D-Speaker说话人任务的开源项目问题之提升语种识别的特征鲁棒性的问题如何解决
3D-Speaker说话人任务的开源项目问题之提升语种识别的特征鲁棒性的问题如何解决
ZeroSwot:零数据训练,成功突破语音翻译难题
【2月更文挑战第16天】ZeroSwot:零数据训练,成功突破语音翻译难题
104 1
ZeroSwot:零数据训练,成功突破语音翻译难题

相关产品

  • 智能语音交互
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等