智能语音交互产品的自研门槛究竟有多高?
三大核心要素——算法、算力和数据又该如何优化?
如何让智能语言交互产品具备自学习能力,改善用户体验?
鄢志杰,阿里云资深算法专家,人机交互首席科学家。研究领域主要包括语音识别、语音合成、说话人识别验证、OCR/手写识别、机器学习算法等。长期担任语音领域顶级学术会议及期刊的专家评审,并拥有多项美国及PCT专利。
课程亮点1
0基础打造智能语音交互爆款产品
随着近几年深度学习的火热,语音识别领域也纷纷投入深度学习的大潮之中。
声学模型、语言模型和解码器可以看作是现代语音识别系统最核心的三个组成部分。智能语音交互产品的自研门槛越来越高,如何快速掌握智能语音学习技术,提升智能语音学习效率。
阿里云总监及机器智能技术实验室团队将深入拆解智能语音三大模型,教你0基础打造智能语音交互爆款产品。
逐一解析智能语音三大模型,包括:LC-BLSTM声学模型、LFR-DFSMN声学模型和NN-LM语言模型。
1、LC-BLSTM是对传统BLSTM模型的一种改进,在保持了高准确率的同时,提供了低延时的特性;
2、LFR-DFSMN是对RNN声学模型的一种改进,用精巧的模型设计获得更稳定的训练效果和更好的识别准确率;
3、NN-LM语言模型是近年来在传统N-Gram语言模型基础上获得的进一步改进。