/作者/肖彰宇
随着语音识别技术的发展,我们的算法模型从 CTC 升级为了 E2E(端到端),即将多个子模块(包括声学模型,发音模型,语言模型等)统一到同一个模型中进行联合优化,具有精度高、效率高、框架简洁的优势。
然而,各领域的从业者们在真实的业务场景中使用语音识别时,往往会遇到一些通用模型覆盖不好的业务相关关键词,例如医学领域的药名、金融领域的专业名称等。这种情况下识别的准确率会受到比较大的影响。为了解决业务关键词识别效果的文本定制问题,传统的解决方案是在识别过程中加入热词进行定向的词汇增强。
在实际的应用场景中,我们发现 E2E 模型在定制领域的效果并不如 CTC的表现好,分析可能原因是相比于 CTC 模型,E2E 模型产生的候选文本概率分布十分尖锐,通过传统的在解码器中增加路径权重的方式较难产出预期的结果。
针对此问题,我们提出了基于 Contextual Transformer 的端到端语音识别文本定制技术。该技术在端到端模型中加入了为额外文本进行建模的 Contextual Encoder 模块,使得端到端模型具备了额外加文本进行定制增强的能力。
具体来说,在模型训练过程中,使用随机抓取的标注文本作为强化信息,使模型建立对特定输入的强化结构;在识别过程中,使用定制文本作为输入,则可对识别结果进行纠偏增强。
|| 模型结构
下图显示了传统热词和 Contextual Transformer 两种结构下的ASR系统框图,主要区别点在于定制热词文本在不同的位置进行增强。传统热词ASR在解码器处进行效果增强,我们选择在端到端模型处进行定制热词文本来增强效果。
具体的 Contextual Transformer 结构如下图所示。在 SAN-M Transfomer 的基础上加入热词编译模块 Contextual Encoder,与 Decoder 文本进行 MHA(Multi-Head Attention) 之后,与声学信息拼接到一起,经过 Decoder 的 FSMN 网络产出最终的识别文本。具体的 Contextual Encoder 模块为单向 LSTM 结构,若输入为 n 个热词 w1, w2, ..., wn, 对应的字序列为
那么 Contextual Encoder 转化出来的第 j 个热词 embedding 为:
传入 Decoder 后,热词 embedding 作为 K, V,标注文本的 embedding 作为 Q,计算出 Multi-Head Attention 后,与声学 MHA 的输出拼接后,再完成 Decoder 的计算并产出候选结果。与直觉不同,训练过程中的定制热词文本与具体的测试业务场景无关,为保证模型的热词泛化能力,从训练 mini-batch 的标注文本中随机抽取组合而成。具体来说,以概率 P 从 mini-batch 中选取若干句标注,再从这些句子中随机选取不定长的连续字作为随机热词。此外,还需加入 <no-bias> 符作为无热词情况下的缺省选项,以及随机词作为负样本。生成随机热词的流程如下图所示:
随机热词的训练使得 Contextual Transformer 模型具备了针对输入定制热词文本进行定向增强的能力,上述随机生成定制热词文本的方式,确保了模型面对不同领域热词情况下具有同样的泛化能力。因此,在测试阶段,使用业务场景给定的关键词作为定制热词文本,该模型可以有效提升业务关键词的召回率和整体的识别率。
|| 实验结果
Contextual Transformer 在包括政务、金融、能源、客服等业务领域测试集上的热词识别效果如下表所示:
- 整体上 E2E 模型相对于 CTC 识别率提升非常显著(14.17%->11.61%),但热词召回率 (Recall) 的提升仅 8%(76%->84%),弱于 CTC 模型的提升 12%(71%->83%)。
- 在 Contextual Transformer 模型上,不仅 CER 进一步减小到了 10.85%,同时热词的召回率提升达到了 19%(75%->94%),显著优于传统热词在 E2E 和 CTC 上的效果。
- 与此同时,由于传统热词的技术所限,支持的热词数量上限为 128 词。引入 Contextual Transformer 之后,新版的热词数量支持上限达到了 1000 词,经过实验验证,尽管热词数量增多带来了彼此之间的干扰,但 Recall 同样有 16% 的提升,CER 和 Precision 的下降也在可接受的范围之内,如下表所示:
|| Future work
基于 Contextual Transformer 的端到端语音识别文本定制技术,从热词的召回率和整体识别率的角度,显著地提升了端到端语音识别的文本定制能力,从而使得通用模型与具体业务之间的匹配程度更高,可更好地解决实际落地场景中的识别问题。目前,该技术已应用于达摩院听悟产品中,预计7月份在阿里云智能语音交互产品中上线。
除了孤立的热词优化以外,结合了解码器技术后的 Contextual Transformer 同样具备对连续文本的定向增强能力,通过即时检索相关 n 元文法作为动态定制文本的方式,可使得模型具备定制语言模型的优化能力。相关的工作仍处于探究中,该技术有潜力用一个模型解决通用的文本增强的需求。