智能语音交互自学习平台培训 | 学习笔记

简介: 简介:快速学习智能语音交互自学习平台培训

开发者学堂课程【智能语音对话机器人训练营课程:智能语音交互自学习平台培训】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/908/detail/14393


智能语音交互自学习平台培训

 

目录:

一、语音识别简介

二、自学习平台能力

三、自学习平台方案优势

四、模型优化-语言模型定制

五、模型优化-声学模型定制

六、语言识别模型训练基本流程

七、优化过程原则

八、优化案例-数字字母识别优化 Part1

九、优化案例-数字字母识别优化 Part2

十、最佳实践―人名优化

十一、最佳实践–重口音方言优化

十二、最佳实践–法院卷宗优化

十三、案例

十四、语音识别解码过程和模型的关系


一、语音识别简介

image.png

语音识别,通常称为自动语音识别,英文是 Automatic Speech Recognition ,缩写为 ASR ,主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,即语音转文字的过程。

语音识别( Speech Recognition )的目标是把语音转换成文字

语音识别过程∶

前端处理:语音音频转换为语音特征序列

后端处理:语音特征序列转换为文字序列,也被称为语音识别解码

解码∶利用特征序列,结合语音识别模型(声学模型和语言模型)进行搜索,找到一个最优的文字序列。

声学模型︰对声学、语音学、环境的变量、说话人性别、口音等的差异的建模

语言模型:对一组字/词序列构成的建模

image.png

 

二、自学习平台能力

阿里云智能语音提供“开箱即用”,快速生效的语音智能训练能力︰自学习平台让合作伙伴自主、自助定制出业界顶尖的垂直领域语音识别模型

语言层面

--快速有效的优化方案,可以直接在客户现场进行秒级、分钟级的定制优化;

--热词/类热词∶秒级生效、提升特定词的概率;

--定制语言模型︰分钟级生效、支持句子、篇章、领域级别的优化;

声学层面

--最终实现语音识别定制全覆盖,将声学模型优化从实验室搬到客户现场;

--需要对语音标注,训练周期较长,1-3天;

--解决因为口音,特殊环境和拾音设备造成的识别问题的效果最好﹔

--支持 CPU 和 GPU 训练

 

三、自学习平台方案优势

image.png

热刺优化

泛热词 

基线模型

泛热词优化

北京女子图片

北京女子图鉴

西湖风景区

溪湖风景区

类热词(人名地名)

基线模型

类热词优化

打电话给马建芳

打电话给马健方

原告与不应选公司

原告与布衣轩公司

·泛热词

--业务领域的特有词汇、业务关键词,例如公司名称、产品名称、专业词汇等;

--泛热词长度不建议太长,一般在4个字以内,也不要有标点符号;

--除了强化效果,同样可以弱化指定词汇,降低转写出现概率,可利用权重区分强化、弱化效果。

·类热词(人名地名)

--针对某一类特有的词,词表里的词必须是同一种类的,如都是人名,或都是地名,如果有其他种类需要使用泛热词;

--类热词长度同样不建议太长,一般在4个字以内,也不要有标点符号。

类热词、泛热词使用时,词表中数量有限制,如果需要大量的热词,需要改用定制语言模型。


四、模型优化-语言模型定制

语言模型定制

--阿里云的语音识别服务,已经提供了通用模型(或者叫基础模型),例如8k客服质检模型、或某特定领域模型等;

--针对客户的垂直领域,可以使用积累的语料(句子、篇章),如规范话术、规章制度、历史对话数据等,对语言模型做定制优化;

--使用基础语言模型叠加定制语言模型的方式进行语音识别,可以有效提高特定场景的语音识别率,尤其是专有名词和文本中的高频词汇,有较好的优化效果;

--语言模型定制是基于训练语料里面的统计信息来进行优化,利用语料中出现的词和词之间的关联信息一起用来计算语言学模型得分,对整体识别率提升比较稳定﹔

--可以使用复制多行或者提高模型权重的方式进行定制语言模型加强。

基础模型

语言模型优化

办了1个无线流量

办了1个无限流量

线下门店扫码优想金

线下门店扫码优享金

巴巴vip优酷会有权益

八八vip优酷会有权益

购物今天跟优惠券没有用上

购物津贴跟优惠券没有用上

充了一百块钱花呗还没到账

充了一百块钱话费还没到账

 

五、模型优化-声学模型定制

·声学模型定制

--声学模型主要用来解决区域性口音、特殊背景音环境、拾音设备对语音识别的效果的影响;

--某些特殊的场景,例如数字字母组合、汽车型号、航班号识别等场景,发音方式有其明显的自身的特点,同样可以利用声学模型定制带来明显的识别提高;

--用户提供实际业务的音频和对应的标注文本,以基础声学模型为基础,利用这些数据对声学模型进行调优训练,从而带来更好的识别效果;

--标注本身也可以加入业务相关语料中进行语言模型优化,一次标注,支持两次训练;

--对优化人员本身要求较高,定制周期也较其他优化方式更长。 

基础模型

声学模型优化

投保人与实际淘宝人

投保人与实际投保人

劳保5十5元

6百5十5元

工业叫究竟到的

公安局交警大队

2013年3月2日偶然

2013年3月2十5日

提出湘云歌姬恐

提出向原告借款

 

六、语言识别模型训练基本流程

声学模型训练:

音频+标注 à 数据处理—特征+标签à声学神经网络训练 à 声学模型

语言模型训练:

文本语料 à 文本处理—标准语料à语言模型训练à语言模型

各种定制方式总结 

定制方式

特点

注意

泛热词

1. 提升特定词的识别概率或者降低特定词的识别概率;

2. 秒级生效,成本低

不适合大规模使用,以免对整体识别率有影响

类热词(人名地名)

1. 提升一类特定词的识别概率

2. 秒级生效,成本低

需要基础语言模型支持相应的类别(目前只支持人名和地名)

语言模型定制(LM)

1. 支持句子、篇章、领域级别的优化

2. 领域越窄,效果越好;

3. 分钟级生效,成本低。

 

声学模型定制(AM)

1. 针对解决特殊口音(非方言),特殊环境背景噪音和特殊拾音设备造成的识别向题的效果最好

2. 需要标注音频,标注时间取决于数据量,训练流程一般1-3天,对优化人员本身要求较高, 定制周期也较其他优化方式更长

音频标注质量很重要,不仅影响训练效果,也影响测试效果


七、优化过程原则

image.png

找到优化方向后,可以按照如下的顺序进行优化∶

1.首先考虑无标注优化︰

·使用业务相关语料进行定制语言模型优化。业务语料包括业务关键词以及业务相关的句子和篇章等;

·针对依然识别不好的业务关键词,再以复制多行或者提高模型权重的方式进行定制语言模型加强;

·个别解决不好的业务关键词,使用泛热词进行优化;

2.再考虑有标注优化∶

·如果主要是因为口音等问题导致的整体识别效果不好,并且无标注优化方式无法解决到满意程度,可以开始声学模型优化;

·声学模型优化需要标注数据,标注本身也可以加入业务相关语料中进行语言模型优化。


八、优化案例-数字字母识别优化 Part1

业务背景∶针对一些例如数字字母类的优化场景,例如汽车型号、航班号、电话号码,可以遵循以下原则︰

·集合很小,个位数,优先热词优化,也可以定制语言模型训练;

·集合适中或较大,几十到几千个,选择定制模型优化;

·集合非常大,如开放场景下的电话号码、车牌号,这种场景一般需要在基础模型上解决,建议联系原厂评估。

优化路径选择︰

优先选择语言模型进行优化→2.热词优化→3.声学模型优化

注意:语料格式  定制模型权重   语料格式


九、优化案例-数字字母识别优化 Part2

业务背景︰针对一些例如数字字母类的优化场景,例如汽车型号、航班号、电话号码,可以遵循以下原则︰

1.定制语言模型时,字母之间建议要留空格

⒉数字按照实际中文读音来写。例如实际中,数字1可能读一或者幺,或者两种都有。

3.如果定制语言模型本来已经有其他的训练语料,需要让数字字母组合的训练语料的行数和现有语料在数量级尽量可比。例如已经有1万行的语料,目前有50个数字字母需要优化,可以适当进行复制,例如10-20次左右。

4.热词优化文本要注意格式∶字母必须是小写,且字母之间建议要留空格﹔数字按照实际中文读音来写。

5.定制声学模型训练,因为领域的数字字母组合的特殊性,除了基础的语言模型覆盖力度不一定够,基础的声学模型也一样。如果条件允许,即使是小数据量(几个小时)来训练声学模型,也能会起到不错的效果。

6.可以考虑适当提高定制语言模型、定制声学模型的权重来优化效果。

7.注意,语音模型优化,并不代表所有 case 都可以100%解掉。


十、最佳实践―人名优化

业务背景∶某公司需要针对公司员工姓名进行转写优化,可以遵循以下原则∶

1.公司员工数量有限时,例如在100人以内,可以使用类热词(人名)或者泛热词进行优化。2.如果员工数量比较大,则需要将所有人名作为语料利用定制语言模型进行模型优化。

3.为了加强效果,可以对使用场景进行泛化后进行训练,以更精确的模拟实际应用场景,例如“打电话给张三、打给张三、呼叫张三、和张三通电话”。

4.如果某些人名效果不够明显可以将该人名相关的语料多复制几遍后进行强化训练。5.可以提升语言模型权重,例如提高至0.5+提升优化效果。

6.单独使用语言模型优化后,某些人名效果依然不佳时,将这些人名独立出来使用类热词(人名)或者泛热词进行优化。

7.结合 NLP 的后处理流程,解决最终难以解决的 bad case 。

 

十一、最佳实践–重口音方言优化

业务背景∶针对某些地域、行业的重口音场景,语言学的角度提升效果优先,需要重点进行声学模型的优化,可以遵循以下原则∶

这种重口音的场景,必须使用声学模型训练来优化,同时一般情况下需要辅以语言模型优化来解决领域适配问题。

1.声学模型训练需要音频和对应的标注文本。

2.至少需要10小时的训练数据,比较理想情况下需要100小时以上的训练数据。

3.对业务领域进行语言模型训练,将标注文本同样作为语言模型训练的一部分,进行训练,配合声学训练达到最好效果。

4.语言模型训练的其他语料格式要求同样参考其他的指导原则。


十二、最佳实践–法院卷宗优化

业务背景︰针对法院庭审、实时笔录等场景,典型的内容包括案由当事人姓名、地址、身份证号数字信息等,优化时可以遵循以下原则∶

1.首先在庭审前把相关案件的卷宗作为训练文本,定制语言模型来提高庭审的识别效果,这一步后效果是最为明显的。

2.针对当事人姓名,利用类热词或者泛热词进行优化。

3.针对数字部分,利用定制语言模型进行优化,弹药注意数字要按照实际中文读音来写。

4.结合 NLP 的后处理流程,解决最终难以解决的 bad case 。

 

十三、案例

某通讯领域客户,智能客服业务

●识别率∶76%->80%(语言学)->92%(声学+语言学);

数据︰35H语音+标注+相关话术;

●优化方式∶定制语言模型优化+声学模型训练

某证券领域客户,自动开户一句话识别:

●识别率∶72% ->91%(声学)-> 93%(声学+语言学);

●优化方式∶定制语言模型优化+声学模型训练

某保险领域客户,外呼和回访业务∶

●识别率:82%-> 86%(声学)->88%(声学+语言学);

●优化方式∶定制语言模型优化+声学模型训练

某呼叫中心用户,生僻行业回访业务

●识别率:74%->79%(声学)-> 83%(声学+语言学);

●数据:300H语音+标注;

●优化方式︰定制语言模型优化+声学模型训练

公安方向某重要领导∶

●方言口音重,初期:60%+,三个月语料收集训练:近90%

●数据∶100M文本+数十小时语音

●优化方式︰定制语言模型优化+声学模型训练

某金融领域客户,外呼业务︰

●识别率:87%->92%;

●数据∶1000H 语音对应文本+相关话术;

●优化方式︰定制语言模型优化


十四、语音识别解码过程和模型的关系

w = argmaxP(W|o) = argmax P(O|W)P(W)

О:特征向量序列

W:词序列

P(O|W):声学模型

P(W):语言模型

声学模型( Acoustic Model,AM )∶语音特征和词之间的建模。给定一个词 W ,计算这个语言特征是描述这个词的可能性有多大。

语言模型( Language Model, LM ):词出现的概率进行建模。当前词之前的 n 个词来估计当前词是 W 的概率( n-gram 模型)。

P(老师|我是)>P(老石|我是)

解码( Decoding )∶结合每一组输入的语音特征向量在空间中进行搜索,找到一条最优的词序列使得P(O|W)P(W)概率最大

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
7月前
|
前端开发 JavaScript 语音技术
|
7月前
|
机器学习/深度学习 人工智能 语音技术
如何提高自己的智能语音自学习能力
如何提高自己的智能语音自学习能力
138 1
|
7月前
|
运维 API 语音技术
Python智能语音识别语翻译平台|项目后端搭建
Python程序设计基础,第三方库Django、requests、hashlib、pyttsx3等的使用,百度API语音识别业务接口、文本朗读业务接口、翻译业务接口的传入。
195 0
Python智能语音识别语翻译平台|项目后端搭建
|
7月前
|
API 语音技术
如何选择适合自己的智能语音自学习平台
如何选择适合自己的智能语音自学习平台
89 0
|
7月前
|
人工智能 自然语言处理 语音技术
智能语音自学习平台有哪些
智能语音自学习平台有哪些
115 0
|
语音技术 信息无障碍
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
回到我们的直播源码平台开发上来,对于直播源码平台来说实时语音识别字幕呈现功能也是重要的功能之一,好了,正式进入我们今天的主题内容:直播源码搭建平台技术知识:实时语音识别字幕呈现功能!
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
《阿里云总监课第二期——智能语音自学习平台》电子版地址
阿里云总监课第二期——智能语音自学习平台
105 0
《阿里云总监课第二期——智能语音自学习平台》电子版地址
|
弹性计算 自然语言处理 机器人
智能语音交互-语音识别介绍 | 学习笔记
简介:快速学习智能语音交互-语音识别介绍
827 0
智能语音交互-语音识别介绍 | 学习笔记
|
机器学习/深度学习 编解码 自然语言处理
音频基础知识+智能语音控制台介绍 | 学习笔记
音快速学习频基础知识+智能语音控制台介绍
音频基础知识+智能语音控制台介绍 | 学习笔记