语音识别技术及应用 | 学习笔记

简介: 快速学习 语音识别技术及应用

开发者学堂课程【阿里巴巴智能语音交互技术与应用语音识别技术及应用】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/376/detail/4710


语音识别技术及应用


内容介绍:

一、面向人群

二、语音识别技术的应用

三、语音识别基础

四、阿里云在语音识别声乐模型上的工作


一、面向人群

语音识别技术面向的人群为对语音识别有基本了解的相关人群。


二、语音识别技术的应用

1语音识别技术的应用及分类

语音识别技术就是将语音转换为文字的一项技术。

例如:

输入一个语音信号,实际希望得到语音信号所表达内容文字。语音识别技术可划分为两类,一类为 ToB 的应用,一类为 ToC  的应用。

语音识别在 ToC 上的应用比较常见的为个人助理、语音输入法、智能硬件。

语音识别在 ToB 的应用例如:

法庭庭审速记、智能语音客服及客服电话智能质检、智能医疗、视频实时字幕。

2)语音识别技术的应用限制

语音识别技术受到环境因素的影响。如噪音(环境噪音、车载噪音等)、信道、场地、麦克风。

语音识别技术受到说话人影响。如口音、方言、音量。

语音识别技术受到说话内容影响。如中英混读、专业术语。

由于受到以上多方因素影响,一般的语音识别技术不能够达到一般场景100%的识别准确率。

3)语音识别一般性技术路线

一般提供面向一般场景的语音识别服务,语音识别服务是针对常见环境因素、说话人因素以及常见说话内容来定制的。

但如果针对特定应用场景及特定产品的优化,例如针对手机、音箱、带口音的普通话、法院、客服等应用场景,就要进行针对特定领域的专门优化,由此达到针对特定领域最好的识别效果。


三、语音识别基础

1)语音识别的定义及度量指标

语音识别的基本定义为根据输入语音数据得到对应的文本。语音识别的度量标准为识别错误率,通过此指标,能够判断语音识别技术的好坏。

2)语音识别基本框架

语音识别三个核心组件分别为:

声学模型 Pr[o|w] : 给定语言学单元,计算输入语音匹配的可能性。

语言模型 Pr[w] :计算各种不同文本序列搭配的可能性。

解码器:根据不同的可能性来得到最有可能的文本序列,即识别结果。

声学模型发展历史:

90年代到2010年左右,语音识别准确率变化不大,原因在于这段时间到达声学模型发展瓶颈。直到2011DNN 的出现导致语音识别错误率的一次大幅降低。

从过去百分之十以上下降至2016年的5.9%。该数据证明了我国语音识别第一次达到人类的水平,对于整个语音识别领域是十分震撼人心的。

HMM-DNN 声学模型:

>Input: 80-dim fbank * 11
context window (-5,5)
> 5/7 * 1024/2048 ReLU layer
> SoftMax
> Output: state posterior

HMM-LSTM 声学模型:

> 5 * 1024 LSTM layer

> target delay

HMM-LSTM 相较于 HMM-DNN 优势为长短时记忆能力;更加契合时序建模问题;在一定程度上缓解RNN的梯度消散和爆炸问题。

不足为计算复杂度相比DNN 大幅增加,并且由于递归连接的存在难以很好的并行。

HMM-BLSTM 声学模型:

>3 * 2048 BLSTM layer

优势为相比 HMM-LSTM 还考虑了反向时序信息的影响,模型具有更好的建模能力。

不足为计算复杂度进一步加大;需要整句进行训练:GPU 显存消耗增大导致并行度降低,从而引起模型训练更慢;实际应用中的实时性问题。

HMM-CNN 声学模型:

>kernel(3*3)+多层数(14

>多层卷积之后再接 pooling

优势为利用平移不变性克服语音信号本身的多样性。不足为解码时计算要求高。

工业应用的考虑:声学模型包括 DNN/LSTM/BLSTM/CNN/多模型。

硬件平台包括:CPU/GPU/FPGA。不同的声学模型具有不同的识别准确性、不同的实时率,不同的硬件平台有不同的工号,所以基于商业考虑,将有不同的搭配。

语言模型:计算各种不同文本序列搭配的可能性。语言模型主要分两类,分别为 N-Gram 语言模型与 RNN 语言模型(RNN-LM)。

解码器:根据不同的可能性来得到最有可能的文本序列,即识别结果。


四、阿里云在语音识别声乐模型上的工作

(1)Middleware 多机多卡模型训练

Middleware 功能特点:

提供了 API 接口使得我们可以通过对训练工具的简单修改实现并行训练。自主管理任务队列、数据分发、通信、同步等。Master-slave 模式,支持 MA /SGD /ASGD 等。

不同 GPU 间通过 API 直接快速通信。

(2)LC-BLSTM 声学模型

BLSTM (Graves2005, Graves2013)
>BLSTM used as the acoustic model for ASR
LSTM (Sak2014, Google)
>LSTM used for LVCSR, highly accurate
CSC-BLSTM (Chen2015, MSR Asia)
>BLSTM used in real-time decoding
LC-BLSTM (Zhang2015, MIT)
>More efficient CSC- BLSTM, adopted by Alibaba services. Improved LC- BLSTM (Xue2017, Alibaba)
>BLSTM evaluation made faster by 40%+

(3)LFR 声学模型Pundak, and T. N. Sainath, " Lower Frame Rate Neural Network Acoustic Models,"in Proc. INTERSPEECH,2016.
"CTC models severly overfit to the training data, and could only match theperformance of conventional models when trained with over 40,000 hours of data."

建模单元从 state(sub-phone 变为 phone   单元。好处是帧率可以从10ms/frame 降到30ms/frame

借鉴了论文中的方法并应用于 LC-BLSTM 上,取得了显著的解码加速。

(4)模型鲁棒性

首先根据对应的场景,选择出一部分数据,在这部分数据基础上,进行各种各样的噪声的叠加,在此基础上进行语速的调整,最终用整个数据进行模型训练,在模型训练上做一些分析,因此形成了整个的迭代,从而不断提高整个模型的鲁棒性。

(5)阿里云语音能力支撑内部客户需求

案例:阿里巴巴集团和蚂蚁金服客服呼叫中心
共同特点:话务量大,每天数十万通电话,数万小时通话数据。用工量大,常年需要成千上万规模自营与外包小二,11期间需求陡增。
语音技术助力服务智能
智能质检使得语音识别支撑集团及蚂蚁客服100%全量质检。
智能电话客服使得通过智能系统回答客户相对简单的问题。如支付宝95188与阿里云95187

阿里云语音能力支撑内部客户需求:

阿里云年会实时语音识别挑战世界速记比赛亚军基于业内率先上线的 LC-BLSTM 声学模型、超大规模语言模型,体现了高度优化的解码器及 CPU /GPU 云计算能力。

阿里云语音能力对外输出:

例如客服呼叫中心、云客服、法庭审计书记、直播字幕、会议记录等。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12308 116
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
22天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互:技术原理与应用前景####
【10月更文挑战第25天】 一句话概括本文主旨,并引发读者兴趣。 智能语音交互技术,作为人工智能领域的重要分支,正以前所未有的速度融入我们的生活,从简单的语音助手到复杂的多轮对话系统,它不仅重塑了人机交互的方式,还为多个行业带来了革命性的变化。本文将深入浅出地探讨智能语音交互的技术原理、当前主流技术路线、面临的挑战及未来发展趋势,为读者揭开这一高科技领域的神秘面纱。 ####
|
20天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
45 0
|
21天前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
32 0
|
3月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
3月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
88 4
|
3月前
|
存储 自然语言处理 API
Elasticsearch 在语音识别领域的应用
【8月更文第28天】随着语音助手和智能设备的普及,语音识别技术已经成为人们日常生活中不可或缺的一部分。Elasticsearch 作为一种高性能的搜索和分析引擎,在语音识别领域可以发挥重要作用,尤其是在提供快速准确的语音搜索结果方面。本文将介绍如何利用 Elasticsearch 来增强语音识别系统的搜索能力,并通过示例代码展示具体实现。
86 0
|
4月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
98 1
|
4月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
189 3
下一篇
无影云桌面