【技术揭秘】可控时延语音识别文本后处理技术

简介: 自动语音识别 (ASR) 原始输出的文本不含标点,且口语的ASR识别结果通常包含大量不顺滑的短语。随着自动语音识别(ASR)技术的广泛应用,以标点预测和顺滑检测为代表的语音识别文本后处理技术越来越受到重视。文本后处理技术能提升语音识别输出文字的可读性。此外,ASR的下游文本处理应用,包括机器翻译、对话系统等等,通常开发在顺滑和含有标点的规范文本上。因此,文本后处理技术还能提升下游任务的性能。本文将揭秘阿里语音AI原创的可控时延后处理模型CT-Transformer。
来源 阿里语音AI 公众号

关键词:

文本后处理,标点预测,顺滑检测,CT-Transformer

背景介绍

自动语音识别 (ASR) 原始输出的文本不含标点,且口语的ASR识别结果通常包含大量不顺滑的短语。随着自动语音识别(ASR)技术的广泛应用,以标点预测和顺滑检测为代表的语音识别文本后处理技术越来越受到重视。文本后处理技术能提升语音识别输出文字的可读性。此外,ASR的下游文本处理应用,包括机器翻译、对话系统等等,通常开发在顺滑和含有标点的规范文本上。因此,文本后处理技术还能提升下游任务的性能。本文将揭秘阿里语音AI原创的可控时延后处理模型CT-Transformer,该成果即将发表在顶级国际会议ICASSP 2020上 [1]。

下面用一个典型的例子来说明什么是文本后处理技术中的标点预测和顺滑检测技术,如图1所示。例如,“I want a flight to Boston um to Denver”。对于标点预测,我们需要预测每个词后是否有某种标点,比如逗号、问号、句号。在这个例子中,Denver这个词后会有一个句号。对于顺滑检测,主要包括检测两种需要被顺滑的类型,RM(Reparandum)和IM(Interregnum)。RM是被后面纠正或者被丢弃的词组,包括重复词,被修复词等。IM则指停顿词、语气词等。对于前面的例子,词组“to Boston”需要被检测为RM,单词“um”需要被检测为IM。经过标点预测和去除检测出来的RM和IM词组,原来的ASR 输出文本转化为 “I want a flight to Denver.”

image.png
图1

对于一个实时的后处理系统而言,在保证高准确率的前提下,尽可能降低时延是至关重要的挑战。例如,同声传译系统中,要求后处理输出的口语文本提前固定从而降低整个系统的时延。阿里语音AI从建模方法和解码策略两个方面来应对这个挑战。

可控时延文本后处理算法
图2是阿里语音AI原创的可控时延后处理模型Controllable Time-Delay Transformer (CT-Transformer) 示意图。模型的输入是口语ASR原始输出的文本。该文本经过词向量和位置向量编码,然后输入至CT-Transformer模型进行特征提取。最后,输出的隐层向量会分别送入标点标注分类器和顺滑标注分类器进行标点预测和顺滑检测。这里采用的是经典的序列标注框架,且利用的多任务学习的思想共享编码模型,来缩短pipelined系统带来的额外时延。

image.png
图2

图3 展示了CT-Transformer与传统的Full-Transformer模型的比较。Full-Transformer每个token会依赖全部序列;CT-Transformer只依赖未来固定长度的tokens和全部的历史序列,因此CT-Transformer可以满足下游任务所需要的提前固定部分输出结果的实时要求。

image.png
图3

除了CT-Transformer 的建模方法之外,我们提出了一种快速解码策略,如图4所示。其基本思路是在实时文本后处理系统的流式处理中,当第一个预测的句尾标点之后的字数超过预设的阈值时,句尾标点之前的句子将不再在解码中考虑,从而进一步降低后处理的时延。

image.png
图4

我们在英文和中文两个数据集上同目前最先进的后处理方法进行了实验比较。在英文的IWSLT2011数据集上,CT-Transformer比最先进的Self-attention-word-speech方法和Full-Transformer都有显著提高的标点预测准确率;在中文数据集上,CT-Transformer比BLSTM有显著提高的标点预测和顺滑检测准确率,和Full-Transformer准确率相同,且有更快的解码速度。

image.png
image.png
image.png

业务应用

本技术在阿里集团内部的语音实时转写、实时字幕、实时翻译等领域有着广泛的应用,成为了阿里集团ASR 技术输出的一个必不可少的模块。

参考文献

[1] Qian Chen, Mengzhe Chen, Bo Li and Wen Wang, "Controllable Time-Delay Transformer for Real-Time Punctuation Prediction and Disfluency Detection," ICASSP (2020)

智能语音产品官网链接:https://ai.aliyun.com/nls

image.png

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
5月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12396 116
|
9天前
|
人工智能 自然语言处理 语音技术
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
Ultravox是一款端到端的多模态大模型,能够直接理解文本和人类语音,无需依赖单独的语音识别阶段。该模型通过多模态投影器技术将音频数据转换为高维空间表示,显著提高了处理速度和响应时间。Ultravox具备实时语音理解、多模态交互、低成本部署等主要功能,适用于智能客服、虚拟助手、语言学习等多个应用场景。
65 14
Ultravox:端到端多模态大模型,能直接理解文本和语音内容,无需依赖语音识别
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
1月前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
82 0
|
1月前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
78 0
|
4月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
97 4
|
4月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
5月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
105 1
|
5月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
230 3
|
4月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
75 0

相关产品

  • 智能语音交互
  • 下一篇
    DataWorks