Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi

简介: 今日,小米开发者大会 MIDC 2019 在北京开幕。语音识别大牛、前霍普金斯大学副教授 Daniel Povey 也正式宣布出任小米集团语音首席科学家,而近日更新的小米移动端深度学习框架 MACE 也已支持 Kaldi。

今年 10 月份,国际语音识别领域著名学者,前约翰霍普金斯大学教授、 语音识别开源工具 Kaldi 之父 Daniel Povey 在 Twitter 上表示,他将加入小米,来北京工作。

时间过得很快,这位知名学者在小米的全新职业生涯已经提前开始。


亮相小米开发者大会


在小米第三届开发者大会 MIDC 2019 开幕前一天,小米创始人兼 CEO 雷军即在微博上宣布,Daniel Povey 将出任小米集团语音首席科学家,直接汇报给集团副总裁、技术委员会主席崔宝秋。此外,他也将首次露相开发者大会,分享「AI 语音领域的未来技术趋势」。


微信图片_20211202092713.jpg

有关这位 AI 大牛的经历,在这里就不必详述了,他加盟中国公司也获得了语音识别社区的极大关注。


在正在进行的小米开发者大会上,Daniel 来到了现场。小米集团副总裁、小米技术委员会主席崔宝秋在演讲中表示,Daniel Povey 上周刚到北京,他将很快在北京组建独立研发团队。


微信图片_20211202092734.jpg


崔宝秋表示,「Daniel Povey 是一个单纯的技术人员,非常符合小米的价值观——他要求自己在小米期间的工作必须保证 100% 开源。在未来,小米将继续加大在 Kaldi 上的投入,帮助打造一个国际化的开源社区,希望小米可以引领开源的语音识别技术。


毫无疑问,Daniel Povey 是一个人工智能的重量级学者,人们对于小米招揽这样一位大牛花费了多少资源非常感兴趣。「其实大家有点想歪了,Povey 在前来小米参观的时候,主动和我们讲他不需要很高的年薪,」崔宝秋介绍道。「小米带给他的优厚条件,可以说是强大的手机+IoT 生态,重视语音技术研发的背景,以及小米深厚的开源文化。


据说,Povey 来 10 月份前来小米时,在介绍完自己的工作之后就迫不及待地去到小米工位上,想要了解公司的工作环境和工程师们的工作氛围。


小米认为,手机是今天 AI 的最大应用平台,而从 IoT 到 AIoT 的发展将是一个质变。从过去的互联互通到未来的整体互联服务中,语音交互非常重要。小米将在 Povey 等人的带领下,在语音+视觉多模态交互等方向加速进行技术研发。


「KALDI 之父 Daniel Povey 能够来到小米是非常幸运的一件事,小米希望能够占据技术的制高点。当然,小米也会以全面开源的姿态参与技术的发展。」崔宝秋说道。


短短一个月,MACE 支持 Kaldi


微信图片_20211202092818.jpg


小米去年 6 月就开源了移动端深度学习框架 MACE。在两天前,MACE 框架发布了最新的更新,在此次更新中可以看到,框架已支持了知名开源语音识别系统 Kaldi。


MACE 开源地址:https://github.com/XiaoMi/mace/releases


微信图片_20211202092845.jpg


Kaldi 是一个开源的语音识别系统,由 Daniel Povey 主导开发,在很多语音识别测试和应用中广泛使用。


MACE 作为小米提前布局的开源产品,是一个可在移动端使用的异构计算平台神经网络框架。通过这一框架,小米可在移动端布局各类深度学习应用和算法,包括计算机视觉、语音识别等。据小米不完全统计,MACE 每天被调用 5000 万次。


微信图片_20211202092907.jpg在 MACE 的提供的模型中已出现了 Kaldi。


从 Kaldi 模型内可以看到,Kaldi 的 nnet2 和 nnet3 模型已被转换为了 ONNX 文件。ONNX 文件是一种通用的 AI 模型文件,支持在多个深度学习开发框架中使用。


据相关页面信息显示,MACE 已经支持大部分 Kaldi 系统内组件,以及 ONNX 形式的的 Kaldi 模型。此外,项目还提供了 Kaldi-onnx 转换工具。


具体转换后的模型列表如下:


微信图片_20211202092949.jpg


本次加入对 Kaldi 的支持,无疑将进一步加强小米 MACE 在语音识别方面的优势。小米表示,他们会尊重 Povey 的想法和价值观,继续推进深度学习相关的开源工作。


此外,小米还准备在未来一两个月开源 MACE-Kit 和超低功耗计算设备。


相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
机器学习/深度学习 人工智能 算法
阿里巴巴推出EMO,探索音频驱动的肖像视频生成的新领域
【2月更文挑战第9天】阿里巴巴推出EMO,探索音频驱动的肖像视频生成的新领域
2221 4
阿里巴巴推出EMO,探索音频驱动的肖像视频生成的新领域
|
3月前
|
人工智能 自然语言处理 计算机视觉
TikTok引入前谷歌VideoPoet负责人蒋路,发力AI视频生成
【2月更文挑战第3天】TikTok引入前谷歌VideoPoet负责人蒋路,发力AI视频生成
45 1
TikTok引入前谷歌VideoPoet负责人蒋路,发力AI视频生成
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
华为在手机上,率先实现本地端自然语言搜图功能
华为在手机上,率先实现本地端自然语言搜图功能
|
移动开发 安全 数据可视化
【APICloud直播】2022移动开发技术风向标
为给企业/开发者进一步赋能,YonBuilder移动低代码开发平台(APICloud) 将联合众多技术大咖,围绕移动开发实战中的重点难点,以线上直播形式,用真正的实战经验为企业/开发者“充电”,希望为大家搭建一个线上交流平台,加速移动开发。
114 0
|
vr&ar 开发工具 图形学
谷歌发布 VR SDK,首批“白日梦”手机将在冬季前面世
谷歌 Daydream 平台可能是拯救手机 VR 盒子体验不佳的良药,不过,自从其在今年 5 月份的 Google I/O 大会上被发布后,至今普通消费者都未能真正体验到这款产品。
150 0
谷歌发布 VR SDK,首批“白日梦”手机将在冬季前面世
|
机器学习/深度学习 人工智能 开发框架
Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi
今日,小米开发者大会 MIDC 2019 在北京开幕。语音识别大牛、前霍普金斯大学副教授 Daniel Povey 也正式宣布出任小米集团语音首席科学家,而近日更新的小米移动端深度学习框架 MACE 也已支持 Kaldi。
162 0
Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi
|
传感器 人工智能 供应链
盛况堪比iPhone发布会,IBM Think 2019亮点有哪些?
旧金山阴雨绵绵,但依旧阻挡不住 26000 多人参加 IBM Think 大会的热情,一度导致交通堵塞。IBM CEO Ginni Rometty 在大会开幕的主题演讲中开玩笑说:「这让我恍然感觉像是在参加一场 iPhone 发布会」。
157 0
盛况堪比iPhone发布会,IBM Think 2019亮点有哪些?
|
人工智能 安全 搜索推荐
苹果 WWDC 2016 大会内容预测:Siri将成最大亮点
6 月 13 日,世界各地的苹果粉又会踏上年度旧金山朝圣之旅,因为 2016 年度苹果全球开发者大会(WWDC)即将召开。这场会议已经见证了很多颠覆性新产品的诞生,比如 iPhone 和 iPad。从严格意义上来说,WWDC是一场开发者会议,当然也会发布一些影响商业技术用户的消息。以下是对这次WWDC大会发布内容的推测。
153 0
苹果 WWDC 2016 大会内容预测:Siri将成最大亮点
|
人工智能 数据挖掘 数据处理
|
人工智能 搜索推荐 机器人
“搜狗分身”技术正式亮相乌镇,携手新华社发布全球首个AI合成主播
未来,“搜狗分身”技术将在娱乐、医疗、健康、教育、法律等多个领域提供个性化的内容,显著提高社会生产和服务效率。
574 0