编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始,阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展。本期分享的主题是远场语音识别技术,以下是本次分享的主要内容:
1. 语音识别之后处理技术简介
语音识别(Automatic Speech Recognition,ASR)所要解决的问题是让计算机能够"听懂"人类的语音,将语音转化成文本。语音识别是实现智能的人机交互的前沿阵地,是完全机器翻译,自然语言理解等的前提条件。语音识别的研究起源于上世纪的50年代,此后经过无数学者坚持不懈的努力,从最初的基于孤立词的小词汇量语音识别系统到目前的基于大词汇量的连续语音识别识别系统,语音识别技术取得了显著的进展。特别是近年来随着大数据时代的到来,以及深度神经网络在语音识别中的应用,语音识别系统的性能获得了显著的提升。语音识别也逐步走向实用化和产品化,越来越多的语音识别智能软件和应用开始走入大家的日常生活,例如语音输入法,智能语音助手,车载语音交互系统等等。
语音识别之后处理技术,主要是优化语音识别产品的用户体验,包括:口语顺滑(Disfluency Detection)、标点恢复(Punctuation Restoration)和逆文本标准化(Inverse Text Normalization)等。下图给出示例:
口语顺滑(Disfluency Detection):红色框表示口语顺滑的效果。与书面语不同,口语含有不通顺的成分(disfluencies),包括填充停顿(filled pause)、重复(repitition)、修正(repair)、重新开始(restart)
标点恢复(Punctuation Restoration):蓝色框表示标点恢复的效果。由于语音识别是做音频信息到字符序列的转换,非常需要标点断句方便用户的阅读,同时便于语音识别后续的应用,譬如机器翻译、机器阅读等。
逆文本标准化(Inverse Text Normalization):橘黄色框表示逆文本标准化效果。可以将spoken form的一些实体,转换为书面语形式,譬如数字、日期、货币等,方面用户阅读。
2. 口语顺滑技术(Disfluency Detection)
2.1问题定义
一个标准口语顺滑范式如下图表示,包括1)被修正部分reparandum 2)插入语interregum 3)修正结果repair
2.2口语顺滑示例
2.3问题建模
1 Sequence tagging:可定义为标准的序列标注问题,可参看的模型包括: CRFs、Semi-Markov CRFs、LSTM、BLSTM
一个标准的BLSTM模型如下图
2 Parsing-based models: 基于parsing的方法,其优点是可以结合NLP parser 一起来解决该问题,但是标注数据的规模可能有限。
3 Sequence to sequence models: 基于生成的方式,该研究领域最近非常热门。
2.4一些有代表性的特征
3. 标点恢复(Punctuation Restoration)
3.1主要方法
1 N-gram Language Models
2 Sequence tagging: better generalization、longer context
参考文献:LSTM for Punctuation Restoration in Speech Transcripts
参考文献:Bidirectional Recurrent Neural Network with Attention Mechanism for Punctuation Restoration
3 Sequence to sequence models
3.1 Compact Representation
3.2 Example
参考文献:NMT-based Segmentation and Punctuation Insertion for Real-time Spoken Language Translation
3.2主要特征
1 word、phrase、word embedding
2 word/phoneme duration、energy(Two stage model)
4. 逆文本标准化(Inverse Text Normalization)
4.1问题定义
Convert spoken-form token sequence to written form
4.2典型的例子
参考文献:A Mostly Data-driven Approach to Inverse Text Normalization
4.3主要的四个过程
1 Label Assignment:
assign a label to each spoken-form input token. A label specifies edits to perform to the spoken-form token string in order to obtain its corresponding written-form segment.
一些label例子:
2 Label Assignment:
Generate finite-state-transducer(FST) for the Rewrite, Prepend, and Append fields from tables, with both input and output symbols
3 Post-processing
apply the appropriate post-processing grammar to any regions marked for post-processing.
4 Label Inference
Obtain label sequences from spoken form, written form pairs