语音识别技术及应用 | 学习笔记

简介: 快速学习 语音识别技术及应用

开发者学堂课程【阿里巴巴智能语音交互技术与应用语音识别技术及应用】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/376/detail/4710


语音识别技术及应用


内容介绍:

一、面向人群

二、语音识别技术的应用

三、语音识别基础

四、阿里云在语音识别声乐模型上的工作


一、面向人群

语音识别技术面向的人群为对语音识别有基本了解的相关人群。


二、语音识别技术的应用

1语音识别技术的应用及分类

语音识别技术就是将语音转换为文字的一项技术。

例如:

输入一个语音信号,实际希望得到语音信号所表达内容文字。语音识别技术可划分为两类,一类为 ToB 的应用,一类为 ToC  的应用。

语音识别在 ToC 上的应用比较常见的为个人助理、语音输入法、智能硬件。

语音识别在 ToB 的应用例如:

法庭庭审速记、智能语音客服及客服电话智能质检、智能医疗、视频实时字幕。

2)语音识别技术的应用限制

语音识别技术受到环境因素的影响。如噪音(环境噪音、车载噪音等)、信道、场地、麦克风。

语音识别技术受到说话人影响。如口音、方言、音量。

语音识别技术受到说话内容影响。如中英混读、专业术语。

由于受到以上多方因素影响,一般的语音识别技术不能够达到一般场景100%的识别准确率。

3)语音识别一般性技术路线

一般提供面向一般场景的语音识别服务,语音识别服务是针对常见环境因素、说话人因素以及常见说话内容来定制的。

但如果针对特定应用场景及特定产品的优化,例如针对手机、音箱、带口音的普通话、法院、客服等应用场景,就要进行针对特定领域的专门优化,由此达到针对特定领域最好的识别效果。


三、语音识别基础

1)语音识别的定义及度量指标

语音识别的基本定义为根据输入语音数据得到对应的文本。语音识别的度量标准为识别错误率,通过此指标,能够判断语音识别技术的好坏。

2)语音识别基本框架

语音识别三个核心组件分别为:

声学模型 Pr[o|w] : 给定语言学单元,计算输入语音匹配的可能性。

语言模型 Pr[w] :计算各种不同文本序列搭配的可能性。

解码器:根据不同的可能性来得到最有可能的文本序列,即识别结果。

声学模型发展历史:

90年代到2010年左右,语音识别准确率变化不大,原因在于这段时间到达声学模型发展瓶颈。直到2011DNN 的出现导致语音识别错误率的一次大幅降低。

从过去百分之十以上下降至2016年的5.9%。该数据证明了我国语音识别第一次达到人类的水平,对于整个语音识别领域是十分震撼人心的。

HMM-DNN 声学模型:

>Input: 80-dim fbank * 11
context window (-5,5)
> 5/7 * 1024/2048 ReLU layer
> SoftMax
> Output: state posterior

HMM-LSTM 声学模型:

> 5 * 1024 LSTM layer

> target delay

HMM-LSTM 相较于 HMM-DNN 优势为长短时记忆能力;更加契合时序建模问题;在一定程度上缓解RNN的梯度消散和爆炸问题。

不足为计算复杂度相比DNN 大幅增加,并且由于递归连接的存在难以很好的并行。

HMM-BLSTM 声学模型:

>3 * 2048 BLSTM layer

优势为相比 HMM-LSTM 还考虑了反向时序信息的影响,模型具有更好的建模能力。

不足为计算复杂度进一步加大;需要整句进行训练:GPU 显存消耗增大导致并行度降低,从而引起模型训练更慢;实际应用中的实时性问题。

HMM-CNN 声学模型:

>kernel(3*3)+多层数(14

>多层卷积之后再接 pooling

优势为利用平移不变性克服语音信号本身的多样性。不足为解码时计算要求高。

工业应用的考虑:声学模型包括 DNN/LSTM/BLSTM/CNN/多模型。

硬件平台包括:CPU/GPU/FPGA。不同的声学模型具有不同的识别准确性、不同的实时率,不同的硬件平台有不同的工号,所以基于商业考虑,将有不同的搭配。

语言模型:计算各种不同文本序列搭配的可能性。语言模型主要分两类,分别为 N-Gram 语言模型与 RNN 语言模型(RNN-LM)。

解码器:根据不同的可能性来得到最有可能的文本序列,即识别结果。


四、阿里云在语音识别声乐模型上的工作

(1)Middleware 多机多卡模型训练

Middleware 功能特点:

提供了 API 接口使得我们可以通过对训练工具的简单修改实现并行训练。自主管理任务队列、数据分发、通信、同步等。Master-slave 模式,支持 MA /SGD /ASGD 等。

不同 GPU 间通过 API 直接快速通信。

(2)LC-BLSTM 声学模型

BLSTM (Graves2005, Graves2013)
>BLSTM used as the acoustic model for ASR
LSTM (Sak2014, Google)
>LSTM used for LVCSR, highly accurate
CSC-BLSTM (Chen2015, MSR Asia)
>BLSTM used in real-time decoding
LC-BLSTM (Zhang2015, MIT)
>More efficient CSC- BLSTM, adopted by Alibaba services. Improved LC- BLSTM (Xue2017, Alibaba)
>BLSTM evaluation made faster by 40%+

(3)LFR 声学模型Pundak, and T. N. Sainath, " Lower Frame Rate Neural Network Acoustic Models,"in Proc. INTERSPEECH,2016.
"CTC models severly overfit to the training data, and could only match theperformance of conventional models when trained with over 40,000 hours of data."

建模单元从 state(sub-phone 变为 phone   单元。好处是帧率可以从10ms/frame 降到30ms/frame

借鉴了论文中的方法并应用于 LC-BLSTM 上,取得了显著的解码加速。

(4)模型鲁棒性

首先根据对应的场景,选择出一部分数据,在这部分数据基础上,进行各种各样的噪声的叠加,在此基础上进行语速的调整,最终用整个数据进行模型训练,在模型训练上做一些分析,因此形成了整个的迭代,从而不断提高整个模型的鲁棒性。

(5)阿里云语音能力支撑内部客户需求

案例:阿里巴巴集团和蚂蚁金服客服呼叫中心
共同特点:话务量大,每天数十万通电话,数万小时通话数据。用工量大,常年需要成千上万规模自营与外包小二,11期间需求陡增。
语音技术助力服务智能
智能质检使得语音识别支撑集团及蚂蚁客服100%全量质检。
智能电话客服使得通过智能系统回答客户相对简单的问题。如支付宝95188与阿里云95187

阿里云语音能力支撑内部客户需求:

阿里云年会实时语音识别挑战世界速记比赛亚军基于业内率先上线的 LC-BLSTM 声学模型、超大规模语言模型,体现了高度优化的解码器及 CPU /GPU 云计算能力。

阿里云语音能力对外输出:

例如客服呼叫中心、云客服、法庭审计书记、直播字幕、会议记录等。

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
30天前
|
机器学习/深度学习 自然语言处理 算法
基于深度学习的语音识别技术应用与发展
在当今数字化时代,语音识别技术已经成为人机交互领域的重要组成部分。本文将介绍基于深度学习的语音识别技术在智能助手、智能家居和医疗健康等领域的应用与发展,同时探讨该技术在未来的潜在应用和发展方向。
44 4
|
7天前
|
机器学习/深度学习 自然语言处理 Linux
hisper 在 Linux 中的应用,以及如何利用它来实现高效的自动语音识别
【6月更文挑战第7天】本文探讨了Whisper,一个基于Linux的先进自动语音识别(ASR)系统,它使用PyTorch构建,支持多语言识别。在Linux环境下,通过安装依赖、下载代码、配置环境变量及编译安装,可实现Whisper的部署。Whisper以其多语言支持、高准确性和实时性,适用于语音助手、翻译等场景。随着技术发展,Whisper有望在更多领域发挥作用。
33 5
|
8天前
|
机器学习/深度学习 人工智能 语音技术
探索深度学习在语音识别中的应用
【6月更文挑战第6天】本文探讨了深度学习在语音识别中的应用,包括声学模型(使用RNN和CNN自动学习深层特征)和语言模型(利用RNN和LSTM捕捉上下文信息)。深度学习的优势在于强大的特征学习、端到端学习和实时性。然而,数据稀疏性、多语种及口音识别、背景噪声等问题仍是挑战。未来,深度学习有望在语音识别领域实现更多突破。
|
16天前
|
机器学习/深度学习 人工智能 算法
构建一个基于AI的语音识别系统:技术深度解析与实战指南
【5月更文挑战第28天】本文深入探讨了构建基于AI的语音识别系统,涵盖基本原理、关键技术及实战指南。关键步骤包括语音信号预处理、特征提取、声学模型、语言模型和解码器。深度学习在声学和语言模型中发挥关键作用,如RNN、LSTM和Transformer。实战部分涉及数据收集、预处理、模型训练、解码器实现及系统评估。通过本文,读者可了解构建语音识别系统的基本流程和技巧。
|
30天前
|
机器学习/深度学习 数据采集 算法
深度学习在语音识别方面的应用
【4月更文挑战第8天】
43 3
深度学习在语音识别方面的应用
|
30天前
|
机器学习/深度学习 自然语言处理 语音技术
语音识别技术的原理与应用
语音识别技术的原理与应用
|
30天前
|
人工智能 数据可视化 语音技术
语音识别与处理:Python 应用
语音识别与处理是计算机科学和人工智能领域中的重要研究方向,它的目标是让计算机能够理解和处理人类的语音。Python 提供了许多强大的库和工具,使得语音识别与处理变得更加容易。在本文中,我们将介绍一些常用的 Python 库,并通过一个简单的示例来演示如何使用它们进行语音识别与处理。
|
30天前
|
机器学习/深度学习 自然语言处理 人机交互
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
273 0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
听懂未来:AI语音识别技术的进步与实战
听懂未来:AI语音识别技术的进步与实战
318 0
|
11月前
|
人工智能 编解码 API
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇