Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi

简介: 今日,小米开发者大会 MIDC 2019 在北京开幕。语音识别大牛、前霍普金斯大学副教授 Daniel Povey 也正式宣布出任小米集团语音首席科学家,而近日更新的小米移动端深度学习框架 MACE 也已支持 Kaldi。
今日,小米开发者大会 MIDC 2019 在北京开幕。语音识别大牛、前霍普金斯大学副教授 Daniel Povey 也正式宣布出任小米集团语音首席科学家,而近日更新的小米移动端深度学习框架 MACE 也已支持 Kaldi。

今年 10 月份,国际语音识别领域著名学者,前约翰霍普金斯大学教授、 语音识别开源工具 Kaldi 之父 Daniel Povey 在 Twitter 上表示,他将加入小米,来北京工作。

时间过得很快,这位知名学者在小米的全新职业生涯已经提前开始。


亮相小米开发者大会


在小米第三届开发者大会 MIDC 2019 开幕前一天,小米创始人兼 CEO 雷军即在微博上宣布,Daniel Povey 将出任小米集团语音首席科学家,直接汇报给集团副总裁、技术委员会主席崔宝秋。此外,他也将首次露相开发者大会,分享「AI 语音领域的未来技术趋势」。


微信图片_20211202124809.jpg


有关这位 AI 大牛的经历,在这里就不必详述了,他加盟中国公司也获得了语音识别社区的极大关注。


在正在进行的小米开发者大会上,Daniel 来到了现场。小米集团副总裁、小米技术委员会主席崔宝秋在演讲中表示,Daniel Povey 上周刚到北京,他将很快在北京组建独立研发团队。


微信图片_20211202124824.jpg


崔宝秋表示,「Daniel Povey 是一个单纯的技术人员,非常符合小米的价值观——他要求自己在小米期间的工作必须保证 100% 开源。在未来,小米将继续加大在 Kaldi 上的投入,帮助打造一个国际化的开源社区,希望小米可以引领开源的语音识别技术。


毫无疑问,Daniel Povey 是一个人工智能的重量级学者,人们对于小米招揽这样一位大牛花费了多少资源非常感兴趣。「其实大家有点想歪了,Povey 在前来小米参观的时候,主动和我们讲他不需要很高的年薪,」崔宝秋介绍道。「小米带给他的优厚条件,可以说是强大的手机+IoT 生态,重视语音技术研发的背景,以及小米深厚的开源文化。


据说,Povey 来 10 月份前来小米时,在介绍完自己的工作之后就迫不及待地去到小米工位上,想要了解公司的工作环境和工程师们的工作氛围。


小米认为,手机是今天 AI 的最大应用平台,而从 IoT 到 AIoT 的发展将是一个质变。从过去的互联互通到未来的整体互联服务中,语音交互非常重要。小米将在 Povey 等人的带领下,在语音+视觉多模态交互等方向加速进行技术研发。


「KALDI 之父 Daniel Povey 能够来到小米是非常幸运的一件事,小米希望能够占据技术的制高点。当然,小米也会以全面开源的姿态参与技术的发展。」崔宝秋说道。


短短一个月,MACE 支持 Kaldi


微信图片_20211202124847.jpg


小米去年 6 月就开源了移动端深度学习框架 MACE。在两天前,MACE 框架发布最新的更新,在此次更新中可以看到,框架已支持了知名开源语音识别系统 Kaldi。


MACE 开源地址:https://github.com/XiaoMi/mace/releases


微信图片_20211202124912.jpg


Kaldi 是一个开源的语音识别系统,由 Daniel Povey 主导开发,在很多语音识别测试和应用中广泛使用。


MACE 作为小米提前布局的开源产品,是一个可在移动端使用的异构计算平台神经网络框架。通过这一框架,小米可在移动端布局各类深度学习应用和算法,包括计算机视觉、语音识别等。据小米不完全统计,MACE 每天被调用 5000 万次。


微信图片_20211202124916.jpg

在 MACE 的提供的模型中已出现了 Kaldi。


从 Kaldi 模型内可以看到,Kaldi 的 nnet2 和 nnet3 模型已被转换为了 ONNX 文件。ONNX 文件是一种通用的 AI 模型文件,支持在多个深度学习开发框架中使用。


据相关页面信息显示,MACE 已经支持大部分 Kaldi 系统内组件,以及 ONNX 形式的的 Kaldi 模型。此外,项目还提供了 Kaldi-onnx 转换工具。


具体转换后的模型列表如下:


微信图片_20211202124937.jpg


本次加入对 Kaldi 的支持,无疑将进一步加强小米 MACE 在语音识别方面的优势。小米表示,他们会尊重 Povey 的想法和价值观,继续推进深度学习相关的开源工作。


此外,小米还准备在未来一两个月开源 MACE-Kit 和超低功耗计算设备。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
14天前
|
前端开发 UED
游戏直播平台源码分享,功能对标虎牙斗鱼
熊猫比分开发的游戏直播平台,提供全面的电竞赛事直播与数据服务,涵盖LOL、DOTA2等热门项目。平台特色包括丰富的基础数据、详细的统计数据、最新的媒体资讯及优质的直播体验,如画中画功能和IM通讯模块,增强用户互动与粘性。
|
1月前
|
IDE 程序员 开发工具
CodeFuse邀你领取编码挑战任务,最高赢取Beats蓝牙耳机!
在1024程序员节,CodeFuse推出「编码挑战季」,邀请全球开发者参与。通过GitHub领取任务,提升技术,赢取定制周边,包括Beats Studio Pro耳机。活动已开放近50个任务,涵盖四大代码仓库。快来加入,展示你的技术实力!
41 0
|
5月前
|
API Android开发
|
传感器 人工智能 安全
逐鹿人形机器人,百度、腾讯、小米卷起来
长期不温不火的人形机器人产业迎来新风口,技术显著提升、新品层出不穷、资本投资态度也逐渐好转。
261 0
|
机器学习/深度学习 人工智能 文字识别
预约直播 | 主流视觉算法介绍及在PAI上的应用
阿里云AI技术分享会第一期《主流视觉算法介绍及在PAI上的应用》将在2022年06月30日开启直播,精彩不容错过!
预约直播 | 主流视觉算法介绍及在PAI上的应用
|
存储 JSON 数据格式
【平头哥RVB2601创意应用开发】疫情播报系统应用
实现通过网络读取json数据,进行分解,针对数据字符,播放相应的mp3音频文件,并在OLED屏幕上显示实际对应数据的疫情播报系统。
247 0
【平头哥RVB2601创意应用开发】疫情播报系统应用
|
存储 缓存 编解码
你可能看到的关于主流电视盒子迄今最全面的体验点评
虽然去年网络电视盒子受到某些限制,但科技的发展和用户的需求并不因受限而停顿。在天猫、京东上随便可以搜索到非常多的网络电视盒子,每款盒子的性能、应用各不相同,如何选择一台网络盒子成了不少消费者最为头痛的问题。几个月前,雷科技曾比较和体验了百度影棒 3 、小米盒子增强版和七 V 盒子三款 4K 网络盒子,下文将继续通过性能、平台资源、应用、价格等方面比较一些近期热门的智能网络盒子。
296 0
你可能看到的关于主流电视盒子迄今最全面的体验点评
|
机器学习/深度学习 人工智能 开发框架
Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi
今日,小米开发者大会 MIDC 2019 在北京开幕。语音识别大牛、前霍普金斯大学副教授 Daniel Povey 也正式宣布出任小米集团语音首席科学家,而近日更新的小米移动端深度学习框架 MACE 也已支持 Kaldi。
306 0
Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi
|
语音技术 算法
预告:语音交互前沿技术分享——INTERSPEECH 2017系列
iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展,首场将于10月25日(本周三)晚上7点半正式开始。
3862 0
|
机器学习/深度学习 人工智能 物联网
【云周刊】第139期:阿里年会黑科技全揭秘:IoT手环、人脸识别验票、大屏弹幕互动等“十八般武艺”轮番上阵
阿里年会黑科技全揭秘:IoT手环、人脸识别验票、大屏弹幕互动等“十八般武艺”轮番上阵,2017上半年无监督特征学习研究成果汇总,CDN最全学习教程,量子计算会带来什么样的革命?更多精彩技术资讯,尽在云周刊!
6344 0