小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

简介:

雷锋网(公众号:雷锋网) AI 科技评论按:小米近期发布了自己的 AI 音箱,加入了智能家居的战局。正当我们觉得小米会不会只是蹭“人工智能”热点的时候,小米的这篇论文证明了自己真的是把人工智能作为一件严肃的公司业务来做。请允许我们代表人工智能研究大家庭对小米公司表示欢迎,对小米的研究员们致以敬意!

小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

这篇论文是西北工业大学、陕西省语音与图像信息处理重点实验室与小米科技公司的研究员联合研究的成果。该项工作主要针对普通话识别任务,提出了一种基于注意力机制的端到端学习模型。

以下是雷锋网 AI 科技评论根据论文摘要进行的编译简介。

论文摘要

在最近,语言识别领域的研究越来越多地采用了端到端(End-to-End)学习模式。这种学习模式可以直接将输入的语音转录成相应的文本,而不需要使用到任何预定义的校准规则。据雷锋网 AI 科技评论了解,该论文中的研究员们在端到端学习模式基础上,探讨了一种基于注意力机制的编解码模型(Attention-based encoder-decoder model),而该模型主要针对普通话语音识别(Mandarin speech recognition)任务,并且取得了很不错的效果。

小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

图一,上图展示了编码模型。该编码模型是一个BLSTM,它从输入x中提取出h。

在训练期间还使用了帧子采样(Frame sub-sampling)技术。在该项工作中,研究员通过跳帧(Skipping frames)的方式来缩小原序列的长度,并且正则化了权重以取得更好的泛化能力和收敛效果。除此之外,本项工作还探究了卷积注意力(Convoluional attention)和注意力平滑(Attention smoothing)这两种不同的注意力机制所产生的不同影响,以及模型的性能和波束搜索(Beam search)的宽度之间的关联性。

小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

图二,上图展示了AttendAndSpell模型。该模型由MLP(注意力机制)和LSTM(解码模型)组成。在每一次时间步骤(time step)t,MLP将结合隐含状态st-1和输入h计算出上下文向量(context vector)ct。从而生成新的隐含状态st和新的标签yt

最终,该论文所提出的算法,在MiTV数据集上,在没有使用任何词汇(Lexicon)或语言模型(Language model)的情况下,实现了仅为 3.58%的字符错误率(Character error rate, CER)以及7.43%的句子错误率(Sentence error rate, SER)。另外值得一提的,该模型在结合了三元语言模型(Trigram language model)之后,进一步取得了2.81%的字符错误率以及5.77%的句子错误率。相比另两种基于内容的注意力算法和卷积注意力算法,论文中提出的注意力平滑算法都取得了更好的表现。

论文中还表示,他们的下一步研究目标是把现有的技术和非常深的卷积网络结合,以期获得更好的表现。他们的后续成果我们拭目以待,我们期待小米进一步深化人工智能在自家产品中的应用,也希望更多国内企业都参与到人工智能相关技术的研究和应用中来。

Via Attention-Based End-to-End Speech Recognition in Mandarin

雷锋网 AI 科技评论编译。

本文作者:隔壁王大喵

本文转自雷锋网禁止二次转载,原文链接

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
202 0
|
1月前
|
存储 机器学习/深度学习 编解码
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
本文提出统一相位正交啁啾分复用(UP-OCDM)方案,利用循环矩阵特性设计两种低复杂度均衡算法:基于带状近似的LDL^H分解和基于BEM的迭代LSQR,将复杂度由$O(N^3)$降至$O(NQ^2)$或$O(iNM\log N)$,在双选择性信道下显著提升高频谱效率与抗多普勒性能。
169 0
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
|
1月前
|
存储 监控 算法
基于 Go 语言跳表结构的局域网控制桌面软件进程管理算法研究
针对企业局域网控制桌面软件对海量进程实时监控的需求,本文提出基于跳表的高效管理方案。通过多级索引实现O(log n)的查询、插入与删除性能,结合Go语言实现并发安全的跳表结构,显著提升进程状态处理效率,适用于千级进程的毫秒级响应场景。
144 15
|
1月前
|
机器学习/深度学习 算法 自动驾驶
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
153 8
|
1月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
|
1月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
117 0
|
2月前
|
canal 算法 vr&ar
【图像处理】基于电磁学优化算法的多阈值分割算法研究(Matlab代码实现)
【图像处理】基于电磁学优化算法的多阈值分割算法研究(Matlab代码实现)
122 1
|
1月前
|
存储 监控 算法
基于 PHP 布隆过滤器的局域网监控管理工具异常行为检测算法研究
布隆过滤器以其高效的空间利用率和毫秒级查询性能,为局域网监控管理工具提供轻量化异常设备检测方案。相比传统数据库,显著降低延迟与资源消耗,适配边缘设备部署需求,提升网络安全实时防护能力。(238字)
146 0
|
人工智能 大数据 安全
拔俗AI临床大数据科研分析平台:用智能技术加速医学研究新突破
AI临床大数据科研平台基于云原生架构,融合医疗NLP、联邦学习与智能分析技术,破解非结构化数据处理难、多源数据融合难、统计周期长等痛点,实现数据治理、智能分析与安全协作全链路升级,赋能医学科研高效、安全、智能化发展。
|
2月前
|
机器学习/深度学习 存储 算法
【微电网调度】考虑需求响应的基于改进多目标灰狼算法的微电网优化调度研究(Matlab代码实现)
【微电网调度】考虑需求响应的基于改进多目标灰狼算法的微电网优化调度研究(Matlab代码实现)
150 0

热门文章

最新文章