【技术揭秘】可控时延语音识别文本后处理技术

简介: 自动语音识别 (ASR) 原始输出的文本不含标点,且口语的ASR识别结果通常包含大量不顺滑的短语。随着自动语音识别(ASR)技术的广泛应用,以标点预测和顺滑检测为代表的语音识别文本后处理技术越来越受到重视。文本后处理技术能提升语音识别输出文字的可读性。此外,ASR的下游文本处理应用,包括机器翻译、对话系统等等,通常开发在顺滑和含有标点的规范文本上。因此,文本后处理技术还能提升下游任务的性能。本文将揭秘阿里语音AI原创的可控时延后处理模型CT-Transformer。
来源 阿里语音AI 公众号

关键词:

文本后处理,标点预测,顺滑检测,CT-Transformer

背景介绍

自动语音识别 (ASR) 原始输出的文本不含标点,且口语的ASR识别结果通常包含大量不顺滑的短语。随着自动语音识别(ASR)技术的广泛应用,以标点预测和顺滑检测为代表的语音识别文本后处理技术越来越受到重视。文本后处理技术能提升语音识别输出文字的可读性。此外,ASR的下游文本处理应用,包括机器翻译、对话系统等等,通常开发在顺滑和含有标点的规范文本上。因此,文本后处理技术还能提升下游任务的性能。本文将揭秘阿里语音AI原创的可控时延后处理模型CT-Transformer,该成果即将发表在顶级国际会议ICASSP 2020上 [1]。

下面用一个典型的例子来说明什么是文本后处理技术中的标点预测和顺滑检测技术,如图1所示。例如,“I want a flight to Boston um to Denver”。对于标点预测,我们需要预测每个词后是否有某种标点,比如逗号、问号、句号。在这个例子中,Denver这个词后会有一个句号。对于顺滑检测,主要包括检测两种需要被顺滑的类型,RM(Reparandum)和IM(Interregnum)。RM是被后面纠正或者被丢弃的词组,包括重复词,被修复词等。IM则指停顿词、语气词等。对于前面的例子,词组“to Boston”需要被检测为RM,单词“um”需要被检测为IM。经过标点预测和去除检测出来的RM和IM词组,原来的ASR 输出文本转化为 “I want a flight to Denver.”

image.png
图1

对于一个实时的后处理系统而言,在保证高准确率的前提下,尽可能降低时延是至关重要的挑战。例如,同声传译系统中,要求后处理输出的口语文本提前固定从而降低整个系统的时延。阿里语音AI从建模方法和解码策略两个方面来应对这个挑战。

可控时延文本后处理算法
图2是阿里语音AI原创的可控时延后处理模型Controllable Time-Delay Transformer (CT-Transformer) 示意图。模型的输入是口语ASR原始输出的文本。该文本经过词向量和位置向量编码,然后输入至CT-Transformer模型进行特征提取。最后,输出的隐层向量会分别送入标点标注分类器和顺滑标注分类器进行标点预测和顺滑检测。这里采用的是经典的序列标注框架,且利用的多任务学习的思想共享编码模型,来缩短pipelined系统带来的额外时延。

image.png
图2

图3 展示了CT-Transformer与传统的Full-Transformer模型的比较。Full-Transformer每个token会依赖全部序列;CT-Transformer只依赖未来固定长度的tokens和全部的历史序列,因此CT-Transformer可以满足下游任务所需要的提前固定部分输出结果的实时要求。

image.png
图3

除了CT-Transformer 的建模方法之外,我们提出了一种快速解码策略,如图4所示。其基本思路是在实时文本后处理系统的流式处理中,当第一个预测的句尾标点之后的字数超过预设的阈值时,句尾标点之前的句子将不再在解码中考虑,从而进一步降低后处理的时延。

image.png
图4

我们在英文和中文两个数据集上同目前最先进的后处理方法进行了实验比较。在英文的IWSLT2011数据集上,CT-Transformer比最先进的Self-attention-word-speech方法和Full-Transformer都有显著提高的标点预测准确率;在中文数据集上,CT-Transformer比BLSTM有显著提高的标点预测和顺滑检测准确率,和Full-Transformer准确率相同,且有更快的解码速度。

image.png
image.png
image.png

业务应用

本技术在阿里集团内部的语音实时转写、实时字幕、实时翻译等领域有着广泛的应用,成为了阿里集团ASR 技术输出的一个必不可少的模块。

参考文献

[1] Qian Chen, Mengzhe Chen, Bo Li and Wen Wang, "Controllable Time-Delay Transformer for Real-Time Punctuation Prediction and Disfluency Detection," ICASSP (2020)

智能语音产品官网链接:https://ai.aliyun.com/nls

image.png

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 算法
基于深度学习的语音识别技术应用与发展
在当今数字化时代,语音识别技术已经成为人机交互领域的重要组成部分。本文将介绍基于深度学习的语音识别技术在智能助手、智能家居和医疗健康等领域的应用与发展,同时探讨该技术在未来的潜在应用和发展方向。
51 4
|
4天前
|
自然语言处理 搜索推荐 数据挖掘
*语音识别技术将深刻影响未来的教育模式
【6月更文挑战第24天】*语音识别技术将深刻影响未来的教育模式
28 10
|
13天前
|
机器学习/深度学习 人工智能 搜索推荐
语音识别技术的现状与未来展望
【6月更文挑战第15天】**语音识别技术现状与未来:** 随AI发展,语音识别精度与速度大幅提升,应用广泛,从手机助手到智能家居。深度学习驱动技术进步,跨语言及多模态交互成为新趋势。未来,精度、鲁棒性将增强,深度学习将进一步融合,个性化和情感化交互将提升用户体验。跨领域融合与生态共建将推动技术普及,为各行业带来更多智能解决方案。但同时也需关注技术伦理和社会影响。
|
14天前
|
API 语音技术 Python
【python的魅力】:教你如何用几行代码实现文本语音识别
【python的魅力】:教你如何用几行代码实现文本语音识别
|
1月前
|
机器学习/深度学习 人工智能 算法
构建一个基于AI的语音识别系统:技术深度解析与实战指南
【5月更文挑战第28天】本文深入探讨了构建基于AI的语音识别系统,涵盖基本原理、关键技术及实战指南。关键步骤包括语音信号预处理、特征提取、声学模型、语言模型和解码器。深度学习在声学和语言模型中发挥关键作用,如RNN、LSTM和Transformer。实战部分涉及数据收集、预处理、模型训练、解码器实现及系统评估。通过本文,读者可了解构建语音识别系统的基本流程和技巧。
|
11天前
|
机器学习/深度学习 搜索推荐 安全
语音识别技术是一种将语音信号转换为文本或命令的技术,
语音识别技术是一种将语音信号转换为文本或命令的技术,
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
语音识别技术的原理与应用
语音识别技术的原理与应用
|
1月前
|
机器学习/深度学习 自然语言处理 PyTorch
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,Whisper的“默认”形态可能在中文领域斗不过FunAsr,但是经过中文特殊优化的Whisper就未必了。
Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
|
1月前
|
语音技术
在使用ModelScope FunASR进行语音识别时,如果没有文本输出
modelscope-funasr这种情况是什么问题呢?没有文本输出【1月更文挑战第2天】【1月更文挑战第5篇】
97 1
|
1月前
|
机器学习/深度学习 自然语言处理 人机交互
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
317 0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合

相关产品

  • 智能语音交互