语音识别(ASR)系列之一:总览

简介: 最近在系统性调研语音识别模型的发展历程,包括从上世纪八十年代开始流行的GMM/HMM模型,到近两年各种Attention相关模型的探索,在公众号里分享一下,对ASR感兴趣的伙伴可以整体地了解一下语音识别发展的来龙去脉。

最近在系统性调研语音识别模型的发展历程,包括从上世纪八十年代开始流行的GMM/HMM模型,到近两年各种Attention相关模型的探索,对ASR感兴趣的伙伴可以整体地了解一下语音识别发展的来龙去脉。


网络异常,图片无法展示
|

由于相关模型众多,为了保证文章结构清晰不冗长,初步计划分5篇文章介绍:总览、混合模型、CTC模型、Transducer模型、Attention相关模型。本篇为第一篇,总体介绍ASR的原理及分类。


ASR的任务

ASR,即Automatic Speech Recognition,自动语音识别,目标是把语音转换为文本。

基本原理

将语音转换为文本,等价于对给定的语音信号,要找一段文字序列使它和语音信号的匹配度最高,即:

其中X表示语音信号,W表示文字序列,通过贝叶斯公式转换为:

为求各种W下上式最大值,最后一等式因分母P(X)与W无关,直接去掉P(X),最后转化为分别最大化 P(X|W) 和 P(W)。

P(X|W):表示给定文字后语音信号的概率,即这句话有多大的可能发出这串音,这是声学模型的任务。


P(W):表示一个文字序列本身的概率,即这一串字本身有多像一句话,这是语言模型的任务。

ASR问题最终转化成了声学模型和语言模型的问题。

评估方法

常用测试数据集

TIMIT:catalog.ldc.upenn.edu/LDC93S1, 630人说的8种主要美语口音。

Switchboard (SWB):catalog.ldc.upenn.edu/LDC97S62和ht… 两个版本, 含多人电话对话。

LibriSpeech:www.openslr.org/12/,1000小时1…

评估指标

WER(最常用):Word Error Rate, 字错率

PER(少有用):Phoneme Error Rate, 音素错误率


模型分类

根据模型的整体结构,可分为混合模型(Hybrid Model)和端到端模型(End-to-end Model)。

混合模型主要使用HMM(隐马尔科夫模型)计算最终的文本序列(实际是音素序列,后续解释)。HMM计算需要一个状态转移矩阵和发射矩阵,ASR经典模型GMM/HMM中发射矩阵是通过GMM(混合高斯模型)计算的,整个模型混合使用了GMM和HMM,所以叫混合模型。

相对于混合模型,若使用一个模型直接从语音输入得到最终文本序列,则叫端到端模型,主要代表有基于CTC、Transducer和Attention的模型。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
存储 移动开发 算法
语音识别(ASR)--语音转文字
音识别(Automatic Speech Recognition) 是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。
2812 0
|
7月前
|
人工智能 自然语言处理 语音技术
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。
982 91
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
|
10月前
|
API 语音技术
基于Asterisk和TTS/ASR语音识别的配置示例
基于Asterisk和TTS/ASR语音识别的配置示例如下:1. 安装Asterisk:首先,确保你已在服务器上成功安装Asterisk。可以选择从Asterisk官方网站下载最新版本的安装包并按照指南进行安装。2. 安装TTS引擎:选择适合你需求的TTS(Text-to-Speech)引擎,如Google Text-to-Speech、Microsoft Azure Cognitive Services等。按照所选TTS引擎的文档和指示进行安装和配置。3. 配置Asterisk:编辑Asterisk的配置文件,通常是`/etc/asterisk/extensions.conf
200 5
|
10月前
|
API 语音技术
基于Asterisk和TTS/ASR语音识别的配置示例
本文介绍了如何在Asterisk服务器上配置TTS(文本转语音)和ASR(自动语音识别)引擎,包括安装Asterisk、选择并配置TTS和ASR引擎、编辑Asterisk配置文件以实现语音识别和合成的功能,以及测试配置的有效性。具体步骤涉及下载安装包、编辑配置文件、设置API密钥等。
689 1
|
人工智能 算法 机器人
语音识别接口 - ASR性能指标WER/SER
做人工智能测试,准确一点,做语音聊天机器人、智能音箱等测试,一定会接触到语音误别即ASR (Automatic Speech Recognition)。本篇主要讲ASR的几个最重要的指标字错率、句错率。
2238 0
语音识别(ASR)基础介绍第三篇——经典做法及术语概念
上一章介绍了万金油特征MFCC,相当于数据的输入已经确定了。 本章尽可能的介绍经典asr做法。其中涉及到的各种概念和思考,了解了之后,和相关专业的人交流,大概就不再迷茫了:D 传统方法也可以按 声学模型 和 语言学模型 的方式来划分。 声学模型主要的职责是,把一段音频处理成类似拼音的形式, 然后交给语言模型来猜: 能够发这些音的单词,怎么组合起来更常见一些。然后找到最可能的组合,便是asr的结
7184 0
|
机器学习/深度学习 中间件 Linux
顶顶通呼叫中心中间件(mod_cti基于FreeSWITCH)-语音识别(asr)接口
顶顶通呼叫中心中间件(mod_cti基于FreeSWITCH)-语音识别(asr)接口 接口说明
1028 107
|
API 语音技术
基于Asterisk和TTS/ASR语音识别的配置示例
​ 基于Asterisk和TTS/ASR语音识别的配置示例如下: 1. 安装Asterisk:首先,确保你已在服务器上成功安装Asterisk。可以选择从Asterisk官方网站下载最新版本的安装包并按照指南进行安装。 2. 安装TTS引擎:选择适合你需求的TTS(Text-to-Speech)引擎,如Google Text-to-Speech、Microsoft Azure Cognitive Services等。按照所选TTS引擎的文档和指示进行安装和配置。 3. 配置Asterisk:编辑Asterisk的配置文件,通常是`/etc/asterisk/extensions.conf
语音识别(ASR)基础介绍第二篇——万金油特征MFCC
上一章提到了整个发声与拾音及存储的原理。但是在了解ASR的过程中,发现基本上遇到的资料都避不开MFCC特征。   整个ASR的处理流程大致可以分为下图: 左侧是经典的处理流程,右侧是近期流行的流程。发生的变化是,将语言模型以下的部分变成端到端的了。 我们将语言模型以下的部分统一看成是声学模型就好。  而MFCC主要用在左侧的处理流程中,即“特征处
7359 0
|
JSON Linux 语音技术
FreeSWITCH 语音识别 ASR 模块
最近很多人都对FreeSWITCH和ASR对接比较感谢兴趣,(,考虑到大部分人,只是研究一下,并不准确购买商业模块,特意做一个开源项目给大家提供一个参考。
2924 0

热门文章

最新文章