人机交互新进展:LFR-DFSMN语音识别声学模型介绍
语音识别技术是人机交互技术的重要组成部分,而语音识别中的声学模型是语音识别技术中的核心所在,堪称重中之重。阿里巴巴iDST智能语音交互团队最新的LFR-DFSMN模型相对于之前的LFR-LCBLSTM模型可以达到训练加速3倍、识别加速2倍、识别错误率降低20%和最终模型大小压缩50%的效果,实现了语音识别的迭代速度、识别成本、服务质量的全面提升。
语音识别(ASR)基础介绍第二篇——万金油特征MFCC
上一章提到了整个发声与拾音及存储的原理。但是在了解ASR的过程中,发现基本上遇到的资料都避不开MFCC特征。
整个ASR的处理流程大致可以分为下图:
左侧是经典的处理流程,右侧是近期流行的流程。发生的变化是,将语言模型以下的部分变成端到端的了。 我们将语言模型以下的部分统一看成是声学模型就好。
而MFCC主要用在左侧的处理流程中,即“特征处
【详解】智能语音交互@阿里巴巴
本文来自阿里云iDST初敏博士,从我们表面上看到的语音交互,到背后的三个层次技术(语音技术、智能化技术、大数据技术),从语音、自然语言、对话及基础建设等等关键环节都做了非常系统化的介绍!