智能语音交互自学习平台培训

开发者学堂课程【智能语音对话机器人训练营课程:智能语音交互自学习平台培训】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/908/detail/14393

一、语音识别简介

二、自学习平台能力

三、自学习平台方案优势

四、模型优化-语言模型定制

五、模型优化-声学模型定制

六、语言识别模型训练基本流程

七、优化过程原则

八、优化案例-数字字母识别优化 Part1

九、优化案例-数字字母识别优化 Part2

十、最佳实践―人名优化

十一、最佳实践–重口音方言优化

十二、最佳实践–法院卷宗优化

十三、案例

十四、语音识别解码过程和模型的关系

一、语音识别简介

语音识别，通常称为自动语音识别，英文是 Automatic Speech Recognition ，缩写为 ASR ，主要是将人类语音中的词汇内容转换为计算机可读的输入，一般都是可以理解的文本内容，即语音转文字的过程。

语音识别( Speech Recognition )的目标是把语音转换成文字

语音识别过程∶

前端处理:语音音频转换为语音特征序列

后端处理:语音特征序列转换为文字序列，也被称为语音识别解码

解码∶利用特征序列，结合语音识别模型(声学模型和语言模型)进行搜索，找到一个最优的文字序列。

声学模型︰对声学、语音学、环境的变量、说话人性别、口音等的差异的建模

语言模型:对一组字/词序列构成的建模

二、自学习平台能力

阿里云智能语音提供“开箱即用”，快速生效的语音智能训练能力︰自学习平台让合作伙伴自主、自助定制出业界顶尖的垂直领域语音识别模型。

语言层面

--快速有效的优化方案，可以直接在客户现场进行秒级、分钟级的定制优化;

--热词/类热词∶秒级生效、提升特定词的概率;

--定制语言模型︰分钟级生效、支持句子、篇章、领域级别的优化;

声学层面

--最终实现语音识别定制全覆盖，将声学模型优化从实验室搬到客户现场;

--需要对语音标注，训练周期较长，1-3天;

--解决因为口音，特殊环境和拾音设备造成的识别问题的效果最好﹔

--支持 CPU 和 GPU 训练

三、自学习平台方案优势

热刺优化

泛热词

基线模型	泛热词优化
北京女子图片	北京女子图鉴
西湖风景区	溪湖风景区

类热词（人名地名）

基线模型	类热词优化
打电话给马建芳	打电话给马健方
原告与不应选公司	原告与布衣轩公司

·泛热词

--业务领域的特有词汇、业务关键词，例如公司名称、产品名称、专业词汇等;

--泛热词长度不建议太长，一般在4个字以内，也不要有标点符号；

--除了强化效果，同样可以弱化指定词汇，降低转写出现概率，可利用权重区分强化、弱化效果。

·类热词（人名地名)

--针对某一类特有的词，词表里的词必须是同一种类的，如都是人名，或都是地名，如果有其他种类需要使用泛热词;

--类热词长度同样不建议太长，一般在4个字以内，也不要有标点符号。

类热词、泛热词使用时，词表中数量有限制，如果需要大量的热词，需要改用定制语言模型。

四、模型优化-语言模型定制

语言模型定制

--阿里云的语音识别服务，已经提供了通用模型（或者叫基础模型），例如8k客服质检模型、或某特定领域模型等;

--针对客户的垂直领域，可以使用积累的语料（句子、篇章），如规范话术、规章制度、历史对话数据等，对语言模型做定制优化;

--使用基础语言模型叠加定制语言模型的方式进行语音识别，可以有效提高特定场景的语音识别率，尤其是专有名词和文本中的高频词汇，有较好的优化效果;

--语言模型定制是基于训练语料里面的统计信息来进行优化，利用语料中出现的词和词之间的关联信息一起用来计算语言学模型得分，对整体识别率提升比较稳定﹔

--可以使用复制多行或者提高模型权重的方式进行定制语言模型加强。

基础模型	语言模型优化
办了1个无线流量	办了1个无限流量
线下门店扫码优想金	线下门店扫码优享金
巴巴vip优酷会有权益	八八vip优酷会有权益
购物今天跟优惠券没有用上	购物津贴跟优惠券没有用上
充了一百块钱花呗还没到账	充了一百块钱话费还没到账

五、模型优化-声学模型定制

·声学模型定制

--声学模型主要用来解决区域性口音、特殊背景音环境、拾音设备对语音识别的效果的影响;

--某些特殊的场景，例如数字字母组合、汽车型号、航班号识别等场景，发音方式有其明显的自身的特点，同样可以利用声学模型定制带来明显的识别提高;

--用户提供实际业务的音频和对应的标注文本，以基础声学模型为基础，利用这些数据对声学模型进行调优训练，从而带来更好的识别效果;

--标注本身也可以加入业务相关语料中进行语言模型优化，一次标注，支持两次训练;

--对优化人员本身要求较高，定制周期也较其他优化方式更长。

基础模型	声学模型优化
投保人与实际淘宝人	投保人与实际投保人
劳保5十5元	6百5十5元
工业叫究竟到的	公安局交警大队
2013年3月2日偶然	2013年3月2十5日
提出湘云歌姬恐	提出向原告借款

六、语言识别模型训练基本流程

声学模型训练：

音频+标注 à 数据处理—特征+标签à声学神经网络训练 à 声学模型

语言模型训练：

文本语料 à 文本处理—标准语料à语言模型训练à语言模型

各种定制方式总结

定制方式	特点	注意
泛热词	1. 提升特定词的识别概率或者降低特定词的识别概率； 2. 秒级生效，成本低	不适合大规模使用，以免对整体识别率有影响
类热词(人名地名)	1. 提升一类特定词的识别概率 2. 秒级生效，成本低	需要基础语言模型支持相应的类别（目前只支持人名和地名）
语言模型定制(LM)	1. 支持句子、篇章、领域级别的优化 2. 领域越窄，效果越好; 3. 分钟级生效，成本低。
声学模型定制(AM)	1. 针对解决特殊口音(非方言),特殊环境背景噪音和特殊拾音设备造成的识别向题的效果最好 2. 需要标注音频，标注时间取决于数据量，训练流程一般1-3天,对优化人员本身要求较高, 定制周期也较其他优化方式更长	音频标注质量很重要，不仅影响训练效果，也影响测试效果

七、优化过程原则

找到优化方向后，可以按照如下的顺序进行优化∶

1.首先考虑无标注优化︰

·使用业务相关语料进行定制语言模型优化。业务语料包括业务关键词以及业务相关的句子和篇章等;

·针对依然识别不好的业务关键词，再以复制多行或者提高模型权重的方式进行定制语言模型加强;

·个别解决不好的业务关键词，使用泛热词进行优化;

2.再考虑有标注优化∶

·如果主要是因为口音等问题导致的整体识别效果不好，并且无标注优化方式无法解决到满意程度，可以开始声学模型优化;

·声学模型优化需要标注数据，标注本身也可以加入业务相关语料中进行语言模型优化。

八、优化案例-数字字母识别优化 Part1

业务背景∶针对一些例如数字字母类的优化场景，例如汽车型号、航班号、电话号码，可以遵循以下原则︰

·集合很小，个位数，优先热词优化，也可以定制语言模型训练;

·集合适中或较大，几十到几千个，选择定制模型优化;

·集合非常大，如开放场景下的电话号码、车牌号，这种场景一般需要在基础模型上解决，建议联系原厂评估。

优化路径选择︰

优先选择语言模型进行优化→2.热词优化→3.声学模型优化

注意：语料格式定制模型权重语料格式

九、优化案例-数字字母识别优化 Part2

业务背景︰针对一些例如数字字母类的优化场景，例如汽车型号、航班号、电话号码，可以遵循以下原则︰

1.定制语言模型时，字母之间建议要留空格

⒉数字按照实际中文读音来写。例如实际中，数字1可能读一或者幺，或者两种都有。

3.如果定制语言模型本来已经有其他的训练语料，需要让数字字母组合的训练语料的行数和现有语料在数量级尽量可比。例如已经有1万行的语料，目前有50个数字字母需要优化，可以适当进行复制，例如10-20次左右。

4.热词优化文本要注意格式∶字母必须是小写，且字母之间建议要留空格﹔数字按照实际中文读音来写。

5.定制声学模型训练，因为领域的数字字母组合的特殊性，除了基础的语言模型覆盖力度不一定够，基础的声学模型也一样。如果条件允许，即使是小数据量(几个小时）来训练声学模型，也能会起到不错的效果。

6.可以考虑适当提高定制语言模型、定制声学模型的权重来优化效果。

7.注意，语音模型优化，并不代表所有 case 都可以100%解掉。

十、最佳实践―人名优化

业务背景∶某公司需要针对公司员工姓名进行转写优化，可以遵循以下原则∶

1.公司员工数量有限时，例如在100人以内，可以使用类热词（人名）或者泛热词进行优化。2.如果员工数量比较大，则需要将所有人名作为语料利用定制语言模型进行模型优化。

3.为了加强效果，可以对使用场景进行泛化后进行训练，以更精确的模拟实际应用场景，例如“打电话给张三、打给张三、呼叫张三、和张三通电话”。

4.如果某些人名效果不够明显可以将该人名相关的语料多复制几遍后进行强化训练。5.可以提升语言模型权重，例如提高至0.5+提升优化效果。

6.单独使用语言模型优化后，某些人名效果依然不佳时，将这些人名独立出来使用类热词(人名）或者泛热词进行优化。

7.结合 NLP 的后处理流程，解决最终难以解决的 bad case 。

十一、最佳实践–重口音方言优化

业务背景∶针对某些地域、行业的重口音场景，语言学的角度提升效果优先，需要重点进行声学模型的优化，可以遵循以下原则∶

这种重口音的场景，必须使用声学模型训练来优化，同时一般情况下需要辅以语言模型优化来解决领域适配问题。

1.声学模型训练需要音频和对应的标注文本。

2.至少需要10小时的训练数据，比较理想情况下需要100小时以上的训练数据。

3.对业务领域进行语言模型训练，将标注文本同样作为语言模型训练的一部分，进行训练，配合声学训练达到最好效果。

4.语言模型训练的其他语料格式要求同样参考其他的指导原则。

十二、最佳实践–法院卷宗优化

业务背景︰针对法院庭审、实时笔录等场景，典型的内容包括案由当事人姓名、地址、身份证号数字信息等，优化时可以遵循以下原则∶

1.首先在庭审前把相关案件的卷宗作为训练文本，定制语言模型来提高庭审的识别效果，这一步后效果是最为明显的。

2.针对当事人姓名，利用类热词或者泛热词进行优化。

3.针对数字部分，利用定制语言模型进行优化，弹药注意数字要按照实际中文读音来写。

4.结合 NLP 的后处理流程，解决最终难以解决的 bad case 。

十三、案例

某通讯领域客户，智能客服业务

●识别率∶76%->80%(语言学)->92%(声学+语言学);

数据︰35H语音+标注+相关话术;

●优化方式∶定制语言模型优化+声学模型训练

某证券领域客户，自动开户一句话识别:

●识别率∶72% ->91%(声学)-> 93%(声学+语言学);

●优化方式∶定制语言模型优化+声学模型训练

某保险领域客户，外呼和回访业务∶

●识别率:82%-> 86%(声学)->88%(声学+语言学);

●优化方式∶定制语言模型优化+声学模型训练

某呼叫中心用户，生僻行业回访业务

●识别率:74%->79%(声学)-> 83%(声学+语言学);

●数据:300H语音+标注;

●优化方式︰定制语言模型优化+声学模型训练

公安方向某重要领导∶

●方言口音重，初期:60%+，三个月语料收集训练:近90%

●数据∶100M文本+数十小时语音

●优化方式︰定制语言模型优化+声学模型训练

某金融领域客户，外呼业务︰

●识别率:87%->92%;

●数据∶1000H 语音对应文本+相关话术;

●优化方式︰定制语言模型优化

十四、语音识别解码过程和模型的关系

w = argmaxP(W|o) = argmax P(O|W)P(W)

О:特征向量序列

W:词序列

P(O|W):声学模型

P(W):语言模型

声学模型( Acoustic Model,AM )∶语音特征和词之间的建模。给定一个词 W ，计算这个语言特征是描述这个词的可能性有多大。

语言模型( Language Model, LM ):词出现的概率进行建模。当前词之前的 n 个词来估计当前词是 W 的概率( n-gram 模型)。

P(老师|我是)>P(老石|我是)

解码( Decoding )∶结合每一组输入的语音特征向量在空间中进行搜索，找到一条最优的词序列使得P(O|W)P(W)概率最大

智能语音交互自学习平台培训 | 学习笔记