Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi

简介: 今日,小米开发者大会 MIDC 2019 在北京开幕。语音识别大牛、前霍普金斯大学副教授 Daniel Povey 也正式宣布出任小米集团语音首席科学家,而近日更新的小米移动端深度学习框架 MACE 也已支持 Kaldi。
今日,小米开发者大会 MIDC 2019 在北京开幕。语音识别大牛、前霍普金斯大学副教授 Daniel Povey 也正式宣布出任小米集团语音首席科学家,而近日更新的小米移动端深度学习框架 MACE 也已支持 Kaldi。

今年 10 月份,国际语音识别领域著名学者,前约翰霍普金斯大学教授、 语音识别开源工具 Kaldi 之父 Daniel Povey 在 Twitter 上表示,他将加入小米,来北京工作。

时间过得很快,这位知名学者在小米的全新职业生涯已经提前开始。


亮相小米开发者大会


在小米第三届开发者大会 MIDC 2019 开幕前一天,小米创始人兼 CEO 雷军即在微博上宣布,Daniel Povey 将出任小米集团语音首席科学家,直接汇报给集团副总裁、技术委员会主席崔宝秋。此外,他也将首次露相开发者大会,分享「AI 语音领域的未来技术趋势」。


微信图片_20211202124809.jpg


有关这位 AI 大牛的经历,在这里就不必详述了,他加盟中国公司也获得了语音识别社区的极大关注。


在正在进行的小米开发者大会上,Daniel 来到了现场。小米集团副总裁、小米技术委员会主席崔宝秋在演讲中表示,Daniel Povey 上周刚到北京,他将很快在北京组建独立研发团队。


微信图片_20211202124824.jpg


崔宝秋表示,「Daniel Povey 是一个单纯的技术人员,非常符合小米的价值观——他要求自己在小米期间的工作必须保证 100% 开源。在未来,小米将继续加大在 Kaldi 上的投入,帮助打造一个国际化的开源社区,希望小米可以引领开源的语音识别技术。


毫无疑问,Daniel Povey 是一个人工智能的重量级学者,人们对于小米招揽这样一位大牛花费了多少资源非常感兴趣。「其实大家有点想歪了,Povey 在前来小米参观的时候,主动和我们讲他不需要很高的年薪,」崔宝秋介绍道。「小米带给他的优厚条件,可以说是强大的手机+IoT 生态,重视语音技术研发的背景,以及小米深厚的开源文化。


据说,Povey 来 10 月份前来小米时,在介绍完自己的工作之后就迫不及待地去到小米工位上,想要了解公司的工作环境和工程师们的工作氛围。


小米认为,手机是今天 AI 的最大应用平台,而从 IoT 到 AIoT 的发展将是一个质变。从过去的互联互通到未来的整体互联服务中,语音交互非常重要。小米将在 Povey 等人的带领下,在语音+视觉多模态交互等方向加速进行技术研发。


「KALDI 之父 Daniel Povey 能够来到小米是非常幸运的一件事,小米希望能够占据技术的制高点。当然,小米也会以全面开源的姿态参与技术的发展。」崔宝秋说道。


短短一个月,MACE 支持 Kaldi


微信图片_20211202124847.jpg


小米去年 6 月就开源了移动端深度学习框架 MACE。在两天前,MACE 框架发布最新的更新,在此次更新中可以看到,框架已支持了知名开源语音识别系统 Kaldi。


MACE 开源地址:https://github.com/XiaoMi/mace/releases


微信图片_20211202124912.jpg


Kaldi 是一个开源的语音识别系统,由 Daniel Povey 主导开发,在很多语音识别测试和应用中广泛使用。


MACE 作为小米提前布局的开源产品,是一个可在移动端使用的异构计算平台神经网络框架。通过这一框架,小米可在移动端布局各类深度学习应用和算法,包括计算机视觉、语音识别等。据小米不完全统计,MACE 每天被调用 5000 万次。


微信图片_20211202124916.jpg

在 MACE 的提供的模型中已出现了 Kaldi。


从 Kaldi 模型内可以看到,Kaldi 的 nnet2 和 nnet3 模型已被转换为了 ONNX 文件。ONNX 文件是一种通用的 AI 模型文件,支持在多个深度学习开发框架中使用。


据相关页面信息显示,MACE 已经支持大部分 Kaldi 系统内组件,以及 ONNX 形式的的 Kaldi 模型。此外,项目还提供了 Kaldi-onnx 转换工具。


具体转换后的模型列表如下:


微信图片_20211202124937.jpg


本次加入对 Kaldi 的支持,无疑将进一步加强小米 MACE 在语音识别方面的优势。小米表示,他们会尊重 Povey 的想法和价值观,继续推进深度学习相关的开源工作。


此外,小米还准备在未来一两个月开源 MACE-Kit 和超低功耗计算设备。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
算法 调度
详解操作系统四大常用的作业调度算法(FCFS丨SJF丨HRRN丨RR)
详解操作系统四大常用的作业调度算法(FCFS丨SJF丨HRRN丨RR)
7897 0
|
人工智能 缓存 安全
《鸿蒙软总线——人工智能数据传输的稳定与安全之桥》
鸿蒙系统的分布式软总线技术为多设备间的人工智能数据传输提供了高效、稳定和安全的保障。通过多通道并发传输优化、智能链路选择与切换及分布式缓存策略,确保数据传输的及时性和稳定性;设备认证机制、数据加密措施和安全传输协议则从多个层面保护数据安全。应用案例涵盖智能家居和工业自动化领域,实现设备互联互通与协同工作,推动人工智能技术的发展。
533 13
|
8月前
|
SQL 存储 关系型数据库
菜鸟之路Day29一一MySQL之DDL
本文《菜鸟之路Day29——MySQL之DDL》由作者blue于2025年5月2日撰写,主要介绍了MySQL中的数据定义语言(DDL)。文章详细讲解了DDL在数据库和表操作中的应用,包括数据库的查询、创建、使用与删除,以及表的创建、修改与删除。同时,文章还深入探讨了字段约束(如主键、外键、非空等)、常见数据类型(数值、字符串、日期时间类型)及表结构的查询与调整方法。通过示例代码,读者可以更好地理解并实践MySQL中DDL的相关操作。
289 11
|
7月前
|
机器学习/深度学习 人工智能 算法
人机融合智能 | 以人为中心人工智能新理念
本文探讨了“以人为中心的人工智能”(HCAI)理念,强调将人的需求、价值和能力置于AI设计与开发的核心。HCAI旨在确保AI技术服务于人类,增强而非取代人类能力,避免潜在危害。文章分析了AI的双刃剑效应及其社会挑战,并提出了HCAI的设计目标与实施路径,涵盖技术、用户和伦理三大维度。通过系统化方法,HCAI可推动AI的安全与可持续发展,为国内外相关研究提供重要参考。
565 3
|
存储 缓存 固态存储
阿里云服务器租用价格参考,云服务器收费标准与活动价格表参考
本文为大家展示阿里云服务器最新的收费标准与活动价格情况,以供了解和参考。
阿里云服务器租用价格参考,云服务器收费标准与活动价格表参考
|
11月前
|
存储 Ubuntu 前端开发
Linux软件包管理工具概览
在Linux系统中,dpkg、apt、rpm、yum和dnf是几种常见的包管理工具,它们分别属于不同的Linux发行版或家族,并有着各自的诞生顺序和特点。下面将按照这些工具的诞生顺序,并结合Debian、Red Hat、CentOS、Ubuntu和Kali等系统,进行详细的介绍。
331 4
|
人工智能 自然语言处理 算法
《DevEco CodeGenie——人工智能开发者的得力助手》
华为推出的DevEco CodeGenie为AI开发者提供了全方位的支持,涵盖智能知识问答、代码补全与生成、万能卡片生成等功能。它基于生成式搜索能力,快速解决开发难题,显著提升开发效率,缩短项目周期。尤其对新手友好,降低入门门槛,助力其快速上手鸿蒙原生应用开发。通过解放开发者于繁琐任务中,激发创新思维,专注于业务逻辑实现与技术创新,推动AI技术在鸿蒙生态中的深度融合与发展。
470 21
|
Prometheus 监控 Cloud Native
调用淘宝 API 时如何处理错误信息?
调用淘宝API时,需熟悉其错误码体系,处理客户端(如参数错误、权限不足)和服务器(如内部错误、网络问题)错误,编写错误处理逻辑,并进行充分测试与监控,确保API调用稳定可靠。
|
Cloud Native 持续交付 数据安全/隐私保护
云原生时代的微服务架构设计原则
在数字化浪潮中,企业纷纷上云以获得更大的灵活性和扩展性。云原生技术因此成为现代软件开发的核心。本文将深入探讨在云原生环境下如何设计高效、可靠的微服务架构,涵盖关键设计原则、最佳实践以及面临的挑战。我们将通过实际案例分析,揭示如何在云原生生态中构建和维护微服务,确保系统的稳定性和可维护性。
|
前端开发 数据建模 芯片
DC-DC产品设计PCB注意事项
DC-DC电路Layout设计对性能影响大,不良布局可导致EMI干扰、地线噪声和电压降,影响效率。关键原则包括:缩短开关大电流回路,电感、输入电容靠近对应管脚,单点接地以隔离信号地和功率地。布局时,输入输出电容地应紧密连接,敏感信号远离SW管脚。遵循制造商规格书中的layout指南可确保更好的稳定性和效率。
389 7

热门文章

最新文章