小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

简介:

雷锋网(公众号:雷锋网) AI 科技评论按:小米近期发布了自己的 AI 音箱,加入了智能家居的战局。正当我们觉得小米会不会只是蹭“人工智能”热点的时候,小米的这篇论文证明了自己真的是把人工智能作为一件严肃的公司业务来做。请允许我们代表人工智能研究大家庭对小米公司表示欢迎,对小米的研究员们致以敬意!

小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

这篇论文是西北工业大学、陕西省语音与图像信息处理重点实验室与小米科技公司的研究员联合研究的成果。该项工作主要针对普通话识别任务,提出了一种基于注意力机制的端到端学习模型。

以下是雷锋网 AI 科技评论根据论文摘要进行的编译简介。

论文摘要

在最近,语言识别领域的研究越来越多地采用了端到端(End-to-End)学习模式。这种学习模式可以直接将输入的语音转录成相应的文本,而不需要使用到任何预定义的校准规则。据雷锋网 AI 科技评论了解,该论文中的研究员们在端到端学习模式基础上,探讨了一种基于注意力机制的编解码模型(Attention-based encoder-decoder model),而该模型主要针对普通话语音识别(Mandarin speech recognition)任务,并且取得了很不错的效果。

小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

图一,上图展示了编码模型。该编码模型是一个BLSTM,它从输入x中提取出h。

在训练期间还使用了帧子采样(Frame sub-sampling)技术。在该项工作中,研究员通过跳帧(Skipping frames)的方式来缩小原序列的长度,并且正则化了权重以取得更好的泛化能力和收敛效果。除此之外,本项工作还探究了卷积注意力(Convoluional attention)和注意力平滑(Attention smoothing)这两种不同的注意力机制所产生的不同影响,以及模型的性能和波束搜索(Beam search)的宽度之间的关联性。

小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

图二,上图展示了AttendAndSpell模型。该模型由MLP(注意力机制)和LSTM(解码模型)组成。在每一次时间步骤(time step)t,MLP将结合隐含状态st-1和输入h计算出上下文向量(context vector)ct。从而生成新的隐含状态st和新的标签yt

最终,该论文所提出的算法,在MiTV数据集上,在没有使用任何词汇(Lexicon)或语言模型(Language model)的情况下,实现了仅为 3.58%的字符错误率(Character error rate, CER)以及7.43%的句子错误率(Sentence error rate, SER)。另外值得一提的,该模型在结合了三元语言模型(Trigram language model)之后,进一步取得了2.81%的字符错误率以及5.77%的句子错误率。相比另两种基于内容的注意力算法和卷积注意力算法,论文中提出的注意力平滑算法都取得了更好的表现。

论文中还表示,他们的下一步研究目标是把现有的技术和非常深的卷积网络结合,以期获得更好的表现。他们的后续成果我们拭目以待,我们期待小米进一步深化人工智能在自家产品中的应用,也希望更多国内企业都参与到人工智能相关技术的研究和应用中来。

Via Attention-Based End-to-End Speech Recognition in Mandarin

雷锋网 AI 科技评论编译。

本文作者:隔壁王大喵

本文转自雷锋网禁止二次转载,原文链接

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
7月前
|
机器学习/深度学习 算法 数据可视化
从另一个视角看Transformer:注意力机制就是可微分的k-NN算法
注意力机制可理解为一种“软k-NN”:查询向量通过缩放点积计算与各键的相似度,softmax归一化为权重,对值向量加权平均。1/√d缩放防止高维饱和,掩码控制信息流动(如因果、填充)。不同相似度函数(点积、余弦、RBF)对应不同归纳偏置,多头则在多个子空间并行该过程。
490 6
|
9月前
|
人工智能 NoSQL Redis
企业级Agent系统中AI决策错误带来损失,如何通过HITL机制解决?
本文AI专家三桥君探讨了企业级Agent系统中Human-in-the-Loop(HITL)机制的关键作用,旨在解决AI在复杂业务场景中“聪明但错误”的决策问题。通过单机模式(LangGraph中断恢复)、工具调用管控(集中看守/自我管理)及分布式架构(FastAPI+Redis)三种方案,实现人类专家在关键节点的精准干预。三桥君还提出故障恢复策略与异步优化等企业级实践,强调HITL能有效降低AI决策风险,提升系统可靠性,为AI产品经理提供技术落地方向。
334 0
|
7月前
|
存储 人工智能 数据可视化
从零构建能自我优化的AI Agent:Reflection和Reflexion机制对比详解与实现
AI能否从错误中学习?Reflection与Reflexion Agent通过生成-反思-改进循环,实现自我优化。前者侧重内容精炼,后者结合外部研究提升准确性,二者分别适用于创意优化与知识密集型任务。
1190 9
从零构建能自我优化的AI Agent:Reflection和Reflexion机制对比详解与实现
|
11月前
|
存储 监控 算法
基于 C++ 哈希表算法实现局域网监控电脑屏幕的数据加速机制研究
企业网络安全与办公管理需求日益复杂的学术语境下,局域网监控电脑屏幕作为保障信息安全、规范员工操作的重要手段,已然成为网络安全领域的关键研究对象。其作用类似网络空间中的 “电子眼”,实时捕获每台电脑屏幕上的操作动态。然而,面对海量监控数据,实现高效数据存储与快速检索,已成为提升监控系统性能的核心挑战。本文聚焦于 C++ 语言中的哈希表算法,深入探究其如何成为局域网监控电脑屏幕数据处理的 “加速引擎”,并通过详尽的代码示例,展现其强大功能与应用价值。
216 2
|
6月前
|
存储 数据采集 人工智能
拔俗AI家庭医生助手服务系统:24小时守护全家健康的智能管家
在“互联网+医疗健康”背景下,针对基层医疗供需矛盾,本文基于阿里云AI与大数据技术,构建AI家庭医生助手系统,涵盖“云-边-端”协同架构、多模态数据采集、医疗大模型推理、实时预警与数据互通方案,并落地社区医疗实践,提升服务效率与健康管理水平,助力数字化转型。(238字)
533 0
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI家庭医生助手:用智能技术守护全家健康
AI家庭医生助手系统融合医疗大模型、知识图谱与多模态交互,打造7×24小时智能健康服务。以“辅助不替代”为原则,通过合规数据训练、精准医学对齐与动态知识推理,提供高效、可解释的个性化健康管理,打通医疗“最后一公里”,助力预防型医疗转型。(239字)
333 0
|
人工智能 搜索推荐 知识图谱
AI家庭医生助手:用智能技术守护全家健康
AI家庭医生助手融合医疗大模型、知识图谱与多模态交互技术,打造7×24小时智能健康服务,精准理解需求、动态监测体征、提供个性化建议。聚焦慢病管理、日常咨询与预防预警,实现高效初筛与医患协同,提升医疗资源可及性,助力数字健康普惠。
516 0
|
存储 监控 算法
基于 PHP 二叉搜索树算法的内网行为管理机制探究
在当今数字化网络环境中,内网行为管理对于企业网络安全及高效运营具有至关重要的意义。它涵盖对企业内部网络中各类行为的监测、分析与管控。在内网行为管理技术体系里,算法与数据结构扮演着核心角色。本文将深入探究 PHP 语言中的二叉搜索树算法于内网行为管理中的应用。
170 4
|
12月前
|
存储 算法 物联网
解析局域网内控制电脑机制:基于 Go 语言链表算法的隐秘通信技术探究
数字化办公与物联网蓬勃发展的时代背景下,局域网内计算机控制已成为提升工作效率、达成设备协同管理的重要途径。无论是企业远程办公时的设备统一调度,还是智能家居系统中多设备间的联动控制,高效的数据传输与管理机制均构成实现局域网内计算机控制功能的核心要素。本文将深入探究 Go 语言中的链表数据结构,剖析其在局域网内计算机控制过程中,如何达成数据的有序存储与高效传输,并通过完整的 Go 语言代码示例展示其应用流程。
223 0
|
存储 监控 算法
公司监控上网软件架构:基于 C++ 链表算法的数据关联机制探讨
在数字化办公时代,公司监控上网软件成为企业管理网络资源和保障信息安全的关键工具。本文深入剖析C++中的链表数据结构及其在该软件中的应用。链表通过节点存储网络访问记录,具备高效插入、删除操作及节省内存的优势,助力企业实时追踪员工上网行为,提升运营效率并降低安全风险。示例代码展示了如何用C++实现链表记录上网行为,并模拟发送至服务器。链表为公司监控上网软件提供了灵活高效的数据管理方式,但实际开发还需考虑安全性、隐私保护等多方面因素。
254 0
公司监控上网软件架构:基于 C++ 链表算法的数据关联机制探讨

热门文章

最新文章