开发者社区> ybbf7fwncy2w2> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

智能语音交互自学习平台培训 | 学习笔记

简介: 简介:快速学习智能语音交互自学习平台培训
+关注继续查看

开发者学堂课程【智能语音对话机器人训练营课程:智能语音交互自学习平台培训】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/908/detail/14393


智能语音交互自学习平台培训

 

目录:

一、语音识别简介

二、自学习平台能力

三、自学习平台方案优势

四、模型优化-语言模型定制

五、模型优化-声学模型定制

六、语言识别模型训练基本流程

七、优化过程原则

八、优化案例-数字字母识别优化 Part1

九、优化案例-数字字母识别优化 Part2

十、最佳实践―人名优化

十一、最佳实践–重口音方言优化

十二、最佳实践–法院卷宗优化

十三、案例

十四、语音识别解码过程和模型的关系


一、语音识别简介

image.png

语音识别,通常称为自动语音识别,英文是 Automatic Speech Recognition ,缩写为 ASR ,主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,即语音转文字的过程。

语音识别( Speech Recognition )的目标是把语音转换成文字

语音识别过程∶

前端处理:语音音频转换为语音特征序列

后端处理:语音特征序列转换为文字序列,也被称为语音识别解码

解码∶利用特征序列,结合语音识别模型(声学模型和语言模型)进行搜索,找到一个最优的文字序列。

声学模型︰对声学、语音学、环境的变量、说话人性别、口音等的差异的建模

语言模型:对一组字/词序列构成的建模

image.png

 

二、自学习平台能力

阿里云智能语音提供“开箱即用”,快速生效的语音智能训练能力︰自学习平台让合作伙伴自主、自助定制出业界顶尖的垂直领域语音识别模型

语言层面

--快速有效的优化方案,可以直接在客户现场进行秒级、分钟级的定制优化;

--热词/类热词∶秒级生效、提升特定词的概率;

--定制语言模型︰分钟级生效、支持句子、篇章、领域级别的优化;

声学层面

--最终实现语音识别定制全覆盖,将声学模型优化从实验室搬到客户现场;

--需要对语音标注,训练周期较长,1-3天;

--解决因为口音,特殊环境和拾音设备造成的识别问题的效果最好﹔

--支持 CPU 和 GPU 训练

 

三、自学习平台方案优势

image.png

热刺优化

泛热词 

基线模型

泛热词优化

北京女子图片

北京女子图鉴

西湖风景区

溪湖风景区

类热词(人名地名)

基线模型

类热词优化

打电话给马建芳

打电话给马健方

原告与不应选公司

原告与布衣轩公司

·泛热词

--业务领域的特有词汇、业务关键词,例如公司名称、产品名称、专业词汇等;

--泛热词长度不建议太长,一般在4个字以内,也不要有标点符号;

--除了强化效果,同样可以弱化指定词汇,降低转写出现概率,可利用权重区分强化、弱化效果。

·类热词(人名地名)

--针对某一类特有的词,词表里的词必须是同一种类的,如都是人名,或都是地名,如果有其他种类需要使用泛热词;

--类热词长度同样不建议太长,一般在4个字以内,也不要有标点符号。

类热词、泛热词使用时,词表中数量有限制,如果需要大量的热词,需要改用定制语言模型。


四、模型优化-语言模型定制

语言模型定制

--阿里云的语音识别服务,已经提供了通用模型(或者叫基础模型),例如8k客服质检模型、或某特定领域模型等;

--针对客户的垂直领域,可以使用积累的语料(句子、篇章),如规范话术、规章制度、历史对话数据等,对语言模型做定制优化;

--使用基础语言模型叠加定制语言模型的方式进行语音识别,可以有效提高特定场景的语音识别率,尤其是专有名词和文本中的高频词汇,有较好的优化效果;

--语言模型定制是基于训练语料里面的统计信息来进行优化,利用语料中出现的词和词之间的关联信息一起用来计算语言学模型得分,对整体识别率提升比较稳定﹔

--可以使用复制多行或者提高模型权重的方式进行定制语言模型加强。

基础模型

语言模型优化

办了1个无线流量

办了1个无限流量

线下门店扫码优想金

线下门店扫码优享金

巴巴vip优酷会有权益

八八vip优酷会有权益

购物今天跟优惠券没有用上

购物津贴跟优惠券没有用上

充了一百块钱花呗还没到账

充了一百块钱话费还没到账

 

五、模型优化-声学模型定制

·声学模型定制

--声学模型主要用来解决区域性口音、特殊背景音环境、拾音设备对语音识别的效果的影响;

--某些特殊的场景,例如数字字母组合、汽车型号、航班号识别等场景,发音方式有其明显的自身的特点,同样可以利用声学模型定制带来明显的识别提高;

--用户提供实际业务的音频和对应的标注文本,以基础声学模型为基础,利用这些数据对声学模型进行调优训练,从而带来更好的识别效果;

--标注本身也可以加入业务相关语料中进行语言模型优化,一次标注,支持两次训练;

--对优化人员本身要求较高,定制周期也较其他优化方式更长。 

基础模型

声学模型优化

投保人与实际淘宝人

投保人与实际投保人

劳保5十5元

6百5十5元

工业叫究竟到的

公安局交警大队

2013年3月2日偶然

2013年3月2十5日

提出湘云歌姬恐

提出向原告借款

 

六、语言识别模型训练基本流程

声学模型训练:

音频+标注 à 数据处理—特征+标签à声学神经网络训练 à 声学模型

语言模型训练:

文本语料 à 文本处理—标准语料à语言模型训练à语言模型

各种定制方式总结 

定制方式

特点

注意

泛热词

1. 提升特定词的识别概率或者降低特定词的识别概率;

2. 秒级生效,成本低

不适合大规模使用,以免对整体识别率有影响

类热词(人名地名)

1. 提升一类特定词的识别概率

2. 秒级生效,成本低

需要基础语言模型支持相应的类别(目前只支持人名和地名)

语言模型定制(LM)

1. 支持句子、篇章、领域级别的优化

2. 领域越窄,效果越好;

3. 分钟级生效,成本低。

 

声学模型定制(AM)

1. 针对解决特殊口音(非方言),特殊环境背景噪音和特殊拾音设备造成的识别向题的效果最好

2. 需要标注音频,标注时间取决于数据量,训练流程一般1-3天,对优化人员本身要求较高, 定制周期也较其他优化方式更长

音频标注质量很重要,不仅影响训练效果,也影响测试效果


七、优化过程原则

image.png

找到优化方向后,可以按照如下的顺序进行优化∶

1.首先考虑无标注优化︰

·使用业务相关语料进行定制语言模型优化。业务语料包括业务关键词以及业务相关的句子和篇章等;

·针对依然识别不好的业务关键词,再以复制多行或者提高模型权重的方式进行定制语言模型加强;

·个别解决不好的业务关键词,使用泛热词进行优化;

2.再考虑有标注优化∶

·如果主要是因为口音等问题导致的整体识别效果不好,并且无标注优化方式无法解决到满意程度,可以开始声学模型优化;

·声学模型优化需要标注数据,标注本身也可以加入业务相关语料中进行语言模型优化。


八、优化案例-数字字母识别优化 Part1

业务背景∶针对一些例如数字字母类的优化场景,例如汽车型号、航班号、电话号码,可以遵循以下原则︰

·集合很小,个位数,优先热词优化,也可以定制语言模型训练;

·集合适中或较大,几十到几千个,选择定制模型优化;

·集合非常大,如开放场景下的电话号码、车牌号,这种场景一般需要在基础模型上解决,建议联系原厂评估。

优化路径选择︰

优先选择语言模型进行优化→2.热词优化→3.声学模型优化

注意:语料格式  定制模型权重   语料格式


九、优化案例-数字字母识别优化 Part2

业务背景︰针对一些例如数字字母类的优化场景,例如汽车型号、航班号、电话号码,可以遵循以下原则︰

1.定制语言模型时,字母之间建议要留空格

⒉数字按照实际中文读音来写。例如实际中,数字1可能读一或者幺,或者两种都有。

3.如果定制语言模型本来已经有其他的训练语料,需要让数字字母组合的训练语料的行数和现有语料在数量级尽量可比。例如已经有1万行的语料,目前有50个数字字母需要优化,可以适当进行复制,例如10-20次左右。

4.热词优化文本要注意格式∶字母必须是小写,且字母之间建议要留空格﹔数字按照实际中文读音来写。

5.定制声学模型训练,因为领域的数字字母组合的特殊性,除了基础的语言模型覆盖力度不一定够,基础的声学模型也一样。如果条件允许,即使是小数据量(几个小时)来训练声学模型,也能会起到不错的效果。

6.可以考虑适当提高定制语言模型、定制声学模型的权重来优化效果。

7.注意,语音模型优化,并不代表所有 case 都可以100%解掉。


十、最佳实践―人名优化

业务背景∶某公司需要针对公司员工姓名进行转写优化,可以遵循以下原则∶

1.公司员工数量有限时,例如在100人以内,可以使用类热词(人名)或者泛热词进行优化。2.如果员工数量比较大,则需要将所有人名作为语料利用定制语言模型进行模型优化。

3.为了加强效果,可以对使用场景进行泛化后进行训练,以更精确的模拟实际应用场景,例如“打电话给张三、打给张三、呼叫张三、和张三通电话”。

4.如果某些人名效果不够明显可以将该人名相关的语料多复制几遍后进行强化训练。5.可以提升语言模型权重,例如提高至0.5+提升优化效果。

6.单独使用语言模型优化后,某些人名效果依然不佳时,将这些人名独立出来使用类热词(人名)或者泛热词进行优化。

7.结合 NLP 的后处理流程,解决最终难以解决的 bad case 。

 

十一、最佳实践–重口音方言优化

业务背景∶针对某些地域、行业的重口音场景,语言学的角度提升效果优先,需要重点进行声学模型的优化,可以遵循以下原则∶

这种重口音的场景,必须使用声学模型训练来优化,同时一般情况下需要辅以语言模型优化来解决领域适配问题。

1.声学模型训练需要音频和对应的标注文本。

2.至少需要10小时的训练数据,比较理想情况下需要100小时以上的训练数据。

3.对业务领域进行语言模型训练,将标注文本同样作为语言模型训练的一部分,进行训练,配合声学训练达到最好效果。

4.语言模型训练的其他语料格式要求同样参考其他的指导原则。


十二、最佳实践–法院卷宗优化

业务背景︰针对法院庭审、实时笔录等场景,典型的内容包括案由当事人姓名、地址、身份证号数字信息等,优化时可以遵循以下原则∶

1.首先在庭审前把相关案件的卷宗作为训练文本,定制语言模型来提高庭审的识别效果,这一步后效果是最为明显的。

2.针对当事人姓名,利用类热词或者泛热词进行优化。

3.针对数字部分,利用定制语言模型进行优化,弹药注意数字要按照实际中文读音来写。

4.结合 NLP 的后处理流程,解决最终难以解决的 bad case 。

 

十三、案例

某通讯领域客户,智能客服业务

●识别率∶76%->80%(语言学)->92%(声学+语言学);

数据︰35H语音+标注+相关话术;

●优化方式∶定制语言模型优化+声学模型训练

某证券领域客户,自动开户一句话识别:

●识别率∶72% ->91%(声学)-> 93%(声学+语言学);

●优化方式∶定制语言模型优化+声学模型训练

某保险领域客户,外呼和回访业务∶

●识别率:82%-> 86%(声学)->88%(声学+语言学);

●优化方式∶定制语言模型优化+声学模型训练

某呼叫中心用户,生僻行业回访业务

●识别率:74%->79%(声学)-> 83%(声学+语言学);

●数据:300H语音+标注;

●优化方式︰定制语言模型优化+声学模型训练

公安方向某重要领导∶

●方言口音重,初期:60%+,三个月语料收集训练:近90%

●数据∶100M文本+数十小时语音

●优化方式︰定制语言模型优化+声学模型训练

某金融领域客户,外呼业务︰

●识别率:87%->92%;

●数据∶1000H 语音对应文本+相关话术;

●优化方式︰定制语言模型优化


十四、语音识别解码过程和模型的关系

w = argmaxP(W|o) = argmax P(O|W)P(W)

О:特征向量序列

W:词序列

P(O|W):声学模型

P(W):语言模型

声学模型( Acoustic Model,AM )∶语音特征和词之间的建模。给定一个词 W ,计算这个语言特征是描述这个词的可能性有多大。

语言模型( Language Model, LM ):词出现的概率进行建模。当前词之前的 n 个词来估计当前词是 W 的概率( n-gram 模型)。

P(老师|我是)>P(老石|我是)

解码( Decoding )∶结合每一组输入的语音特征向量在空间中进行搜索,找到一条最优的词序列使得P(O|W)P(W)概率最大

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
智能语音交互产品介绍 | 学习笔记
快速学习 智能语音交互产品介绍
0 0
智能语音交互-语音识别介绍 | 学习笔记
简介:快速学习智能语音交互-语音识别介绍
0 0
智能语音系统的搭建着重点是什么?
智能语音系统的搭建着重点是什么?
0 0
搭建智能语音交互系统重要点那些
序言 随着人工智能命题的提出,近年来涌现出一大批基于人工智能的呼叫中心业务服务商和集成商,仅智能外呼这一模块儿就将近百家公司在推广和运营。可以说整个基于人工智能技术的市场开始蓬勃的发展起来了。
0 0
阿里智能语音交互文档操作教程
ASR :语音识别服务,提供语音转文本服务。 TTS :文本转语音服务,提供将文本转为普通话语音的语音合成功能。 NLU :自然语言理解服务,提供自然语言处理功能。
0 0
【直播预告】语音交互时代,产品便捷开发的关键有哪些?
1、极简!端云一体解决方案,助力语音方案商实现极简开发 2、场景!可快速实现命令词更新,让场景互动更智能 3、SDK !产品化的语音行业SDK打包带走
0 0
智能语音交互:阿里的研究和实践
云栖TechDay40期,iDST智能语音交互团队总监智捷带来智能语音交互的演讲。本文主要讲解了语音识别的核心组件,语音识别准确率以及影响准确率因素,还分享了iDST智能语音交互以及阿里云的对外输出。
4406 0
智能语音交互@阿里巴巴
在移动互联+大数据时代,智能语音交互技术将架起用户跟成千上万的互联云端服务之间的桥梁,成为下一个必争的入口。
5071 0
【详解】智能语音交互@阿里巴巴
本文来自阿里云iDST初敏博士,从我们表面上看到的语音交互,到背后的三个层次技术(语音技术、智能化技术、大数据技术),从语音、自然语言、对话及基础建设等等关键环节都做了非常系统化的介绍!
3486 0
文章
问答
来源圈子
更多
技术图谱:由专家组参与技术图谱的绘制与编写,知识与实践的结合让开发者们掌握学习路线与逻辑,快速提升技能 电子书:电子书由阿里内外专家打造,供开发者们下载学习,更与课程相结合,使用户更易理解掌握课程内容 训练营:学习训练营 深入浅出,专家授课,带领开发者们快速上云 精品课程:汇集知识碎片,解决技术难题,体系化学习场景,深入浅出,易于理解 技能自测:提供免费测试,摸底自查 体验实验室:学完即练,云资源免费使用
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
复杂声学环境下的语音交互:技术与实践
立即下载
智能语音交互:阿里巴巴的研究与实践
立即下载
关于对话交互的在思考、实践和未来展望
立即下载