语音识别技术及应用

语音识别技术及应用 | 学习笔记

2022-10-29 361

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习语音识别技术及应用

开发者学堂课程【阿里巴巴智能语音交互技术与应用：语音识别技术及应用】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/376/detail/4710

内容介绍：

一、面向人群

二、语音识别技术的应用

三、语音识别基础

四、阿里云在语音识别声乐模型上的工作

一、面向人群

语音识别技术面向的人群为对语音识别有基本了解的相关人群。

二、语音识别技术的应用

（1）语音识别技术的应用及分类

语音识别技术就是将语音转换为文字的一项技术。

例如：

输入一个语音信号，实际希望得到语音信号所表达内容文字。语音识别技术可划分为两类，一类为 ToB 的应用，一类为 ToC 的应用。

语音识别在 ToC 上的应用比较常见的为个人助理、语音输入法、智能硬件。

语音识别在 ToB 的应用例如：

法庭庭审速记、智能语音客服及客服电话智能质检、智能医疗、视频实时字幕。

（2）语音识别技术的应用限制

语音识别技术受到环境因素的影响。如噪音（环境噪音、车载噪音等）、信道、场地、麦克风。

语音识别技术受到说话人影响。如口音、方言、音量。

语音识别技术受到说话内容影响。如中英混读、专业术语。

由于受到以上多方因素影响，一般的语音识别技术不能够达到一般场景100%的识别准确率。

（3）语音识别一般性技术路线

一般提供面向一般场景的语音识别服务，语音识别服务是针对常见环境因素、说话人因素以及常见说话内容来定制的。

但如果针对特定应用场景及特定产品的优化，例如针对手机、音箱、带口音的普通话、法院、客服等应用场景，就要进行针对特定领域的专门优化，由此达到针对特定领域最好的识别效果。

三、语音识别基础

（1）语音识别的定义及度量指标

语音识别的基本定义为根据输入语音数据得到对应的文本。语音识别的度量标准为识别错误率，通过此指标，能够判断语音识别技术的好坏。

（2）语音识别基本框架

语音识别三个核心组件分别为：

声学模型 Pr[o|w] : 给定语言学单元,计算输入语音匹配的可能性。

语言模型 Pr[w] :计算各种不同文本序列搭配的可能性。

解码器:根据不同的可能性来得到最有可能的文本序列,即识别结果。

声学模型发展历史：

从90年代到2010年左右，语音识别准确率变化不大，原因在于这段时间到达声学模型发展瓶颈。直到2011年 DNN 的出现导致语音识别错误率的一次大幅降低。

从过去百分之十以上下降至2016年的5.9%。该数据证明了我国语音识别第一次达到人类的水平，对于整个语音识别领域是十分震撼人心的。

HMM-DNN 声学模型：

>Input: 80-dim fbank * 11 context window (-5,5) > 5/7 * 1024/2048 ReLU layer > SoftMax > Output: state posterior

HMM-LSTM 声学模型：

> 5 * 1024 LSTM layer

> target delay

HMM-LSTM 相较于 HMM-DNN 优势为长短时记忆能力；更加契合时序建模问题；在一定程度上缓解RNN的梯度消散和爆炸问题。

不足为计算复杂度相比DNN 大幅增加,并且由于递归连接的存在难以很好的并行。

HMM-BLSTM 声学模型：

>3 * 2048 BLSTM layer

优势为相比 HMM-LSTM 还考虑了反向时序信息的影响，模型具有更好的建模能力。

不足为计算复杂度进一步加大；需要整句进行训练:GPU 显存消耗增大导致并行度降低，从而引起模型训练更慢；实际应用中的实时性问题。

HMM-CNN 声学模型：

>小 kernel(3*3)+多层数（14）

>多层卷积之后再接 pooling

优势为利用平移不变性克服语音信号本身的多样性。不足为解码时计算要求高。

工业应用的考虑：声学模型包括 DNN/LSTM/BLSTM/CNN/多模型。

硬件平台包括：CPU/GPU/FPGA。不同的声学模型具有不同的识别准确性、不同的实时率，不同的硬件平台有不同的工号，所以基于商业考虑，将有不同的搭配。

语言模型：计算各种不同文本序列搭配的可能性。语言模型主要分两类，分别为 N-Gram 语言模型与 RNN 语言模型（RNN-LM）。

解码器：根据不同的可能性来得到最有可能的文本序列，即识别结果。

四、阿里云在语音识别声乐模型上的工作

（1）Middleware 多机多卡模型训练

Middleware 功能特点：

提供了 API 接口使得我们可以通过对训练工具的简单修改实现并行训练。自主管理任务队列、数据分发、通信、同步等。Master-slave 模式，支持 MA /SGD /ASGD 等。

不同 GPU 间通过 API 直接快速通信。

（2）LC-BLSTM 声学模型

BLSTM (Graves2005, Graves2013) >BLSTM used as the acoustic model for ASRLSTM (Sak2014, Google) >LSTM used for LVCSR, highly accurate CSC-BLSTM (Chen2015, MSR Asia) >BLSTM used in real-time decoding LC-BLSTM (Zhang2015, MIT) >More efficient CSC- BLSTM, adopted by Alibaba services. Improved LC- BLSTM (Xue2017, Alibaba) >BLSTM evaluation made faster by 40%+

（3）LFR 声学模型Pundak, and T. N. Sainath, " Lower Frame Rate Neural Network Acoustic Models,"in Proc. INTERSPEECH,2016. "CTC models severly overfit to the training data, and could only match theperformance of conventional models when trained with over 40,000 hours of data."

建模单元从 state(sub-phone 变为 phone 单元。好处是帧率可以从10ms/frame 降到30ms/frame。

借鉴了论文中的方法并应用于 LC-BLSTM 上，取得了显著的解码加速。

（4）模型鲁棒性

首先根据对应的场景，选择出一部分数据，在这部分数据基础上，进行各种各样的噪声的叠加，在此基础上进行语速的调整，最终用整个数据进行模型训练，在模型训练上做一些分析，因此形成了整个的迭代，从而不断提高整个模型的鲁棒性。

（5）阿里云语音能力支撑内部客户需求

案例:阿里巴巴集团和蚂蚁金服客服呼叫中心
共同特点：话务量大，每天数十万通电话,数万小时通话数据。用工量大，常年需要成千上万规模自营与外包小二,双11期间需求陡增。
语音技术助力服务智能
智能质检使得语音识别支撑集团及蚂蚁客服100%全量质检。
智能电话客服使得通过智能系统回答客户相对简单的问题。如支付宝95188与阿里云95187。

阿里云语音能力支撑内部客户需求：

阿里云年会实时语音识别挑战世界速记比赛亚军基于业内率先上线的 LC-BLSTM 声学模型、超大规模语言模型，体现了高度优化的解码器及 CPU /GPU 云计算能力。

阿里云语音能力对外输出：

例如客服呼叫中心、云客服、法庭审计书记、直播字幕、会议记录等。

语音识别技术及应用 | 学习笔记