INTERSPEECH 2017系列 | 语音识别之后处理技术

简介: 编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。

编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始,阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展。本期分享的主题是远场语音识别技术,以下是本次分享的主要内容:

1. 语音识别之后处理技术简介

  语音识别(Automatic Speech Recognition,ASR)所要解决的问题是让计算机能够"听懂"人类的语音,将语音转化成文本。语音识别是实现智能的人机交互的前沿阵地,是完全机器翻译,自然语言理解等的前提条件。语音识别的研究起源于上世纪的50年代,此后经过无数学者坚持不懈的努力,从最初的基于孤立词的小词汇量语音识别系统到目前的基于大词汇量的连续语音识别识别系统,语音识别技术取得了显著的进展。特别是近年来随着大数据时代的到来,以及深度神经网络在语音识别中的应用,语音识别系统的性能获得了显著的提升。语音识别也逐步走向实用化和产品化,越来越多的语音识别智能软件和应用开始走入大家的日常生活,例如语音输入法,智能语音助手,车载语音交互系统等等。

  语音识别之后处理技术,主要是优化语音识别产品的用户体验,包括:口语顺滑(Disfluency Detection)、标点恢复(Punctuation Restoration)和逆文本标准化(Inverse Text Normalization)等。下图给出示例:

  口语顺滑(Disfluency Detection):红色框表示口语顺滑的效果。与书面语不同,口语含有不通顺的成分(disfluencies),包括填充停顿(filled pause)、重复(repitition)、修正(repair)、重新开始(restart)

  标点恢复(Punctuation Restoration):蓝色框表示标点恢复的效果。由于语音识别是做音频信息到字符序列的转换,非常需要标点断句方便用户的阅读,同时便于语音识别后续的应用,譬如机器翻译、机器阅读等。

  逆文本标准化(Inverse Text Normalization):橘黄色框表示逆文本标准化效果。可以将spoken form的一些实体,转换为书面语形式,譬如数字、日期、货币等,方面用户阅读。
1

2. 口语顺滑技术(Disfluency Detection)

2.1问题定义

  一个标准口语顺滑范式如下图表示,包括1)被修正部分reparandum 2)插入语interregum 3)修正结果repair
image

2.2口语顺滑示例

image

2.3问题建模

1 Sequence tagging:可定义为标准的序列标注问题,可参看的模型包括: CRFs、Semi-Markov CRFs、LSTM、BLSTM
一个标准的BLSTM模型如下图
image

2 Parsing-based models: 基于parsing的方法,其优点是可以结合NLP parser 一起来解决该问题,但是标注数据的规模可能有限。

3 Sequence to sequence models: 基于生成的方式,该研究领域最近非常热门。
image

2.4一些有代表性的特征

image

3. 标点恢复(Punctuation Restoration)

3.1主要方法

1 N-gram Language Models
2 Sequence tagging: better generalization、longer context
image
参考文献:LSTM for Punctuation Restoration in Speech Transcripts
image
参考文献:Bidirectional Recurrent Neural Network with Attention Mechanism for Punctuation Restoration
3 Sequence to sequence models
3.1 Compact Representation
image
3.2 Example
image
参考文献:NMT-based Segmentation and Punctuation Insertion for Real-time Spoken Language Translation

3.2主要特征

1 word、phrase、word embedding
2 word/phoneme duration、energy(Two stage model)

4. 逆文本标准化(Inverse Text Normalization)

4.1问题定义

  Convert spoken-form token sequence to written form

4.2典型的例子

image
参考文献:A Mostly Data-driven Approach to Inverse Text Normalization

4.3主要的四个过程

1 Label Assignment:
assign a label to each spoken-form input token. A label specifies edits to perform to the spoken-form token string in order to obtain its corresponding written-form segment.

一些label例子:
image

image

2 Label Assignment:
Generate finite-state-transducer(FST) for the Rewrite, Prepend, and Append fields from tables, with both input and output symbols

image

3 Post-processing
apply the appropriate post-processing grammar to any regions marked for post-processing.

image
4 Label Inference
Obtain label sequences from spoken form, written form pairs
image

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12453 116
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
2月前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
146 0
|
2月前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
108 0
|
5月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
103 4
|
5月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
6月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
111 1
|
6月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
266 3
|
5月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
81 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
利用深度学习提升语音识别准确率的技术探讨
传统的语音识别技术在面对复杂的语音场景时常常表现出准确率不高的问题。本文探讨了如何利用深度学习技术,特别是深度神经网络,来提升语音识别的精度。通过分析深度学习在语音处理中的应用以及优势,我们展示了如何结合最新的研究成果和算法来解决现有技术的局限性,进一步推动语音识别技术的发展。 【7月更文挑战第3天】
344 0