阿里全资收购先声互联 前中科院声学大牛付强带队加盟

简介: 近日,阿里对先声互联进行全资收购,先声互联创始人、中科院声学所前研究员付强博士入职阿里达摩院机器智能技术实验室,负责语音交互前端处理技术和方案的研发。未来将筹建两个实体声学实验室,随着阿里在芯片上的战略布局,也会在语音专用芯片上有更多进展。

一支曾被媒体称为“扼住了智能音箱咽喉”的研发团队,近日加盟阿里巴巴。

近日,阿里对北京先声互联科技有限公司(以下简称先声互联)进行全资收购,先声互联创始人、中科院声学所前研究员付强博士入职阿里达摩院机器智能技术实验室,负责语音交互前端处理技术和方案的研发。

和付强一同入职的,包括先声互联创始团队的多名资深专家,他们多为付强在中科院的原班人马,其中有一位来自著名的杜比实验室。

付强带队加盟,将成为阿里IoT场景落地的关键一环

先声互联是国内最早从事语音增强、远讲语音交互接口技术的团队,曾为阿里、百度、小米等多家公司提供远讲语音交互软硬件的解决方案。

付强及团队在语音增强等领域创造了多项国内第一,甚至打破了国外的技术垄断。创始人付强拥有二十余年语音信号处理研发经历,在美国OGI等语音研究机构从事过博士后工作,曾牵头完成了国家自然科技基金国家、省部委几十项科研课题,在包括IEEE Trans.在内的国际权威学术刊物上发表论文近百篇,发明专利近二十项,多项成果被相关部委列装。

4月初,阿里宣布全面进军物联网领域。付强带领声学团队加入,将成为阿里IoT场景落地的关键一环

去年下半年,前宝利通首席工程师冯津伟加入阿里,进行上海地铁语音售票机的研发,这是全球首个强嘈杂环境下的语音交互产品。

付强加盟后将整合资源,推动语音识别技术的场景落地,形成软硬结合、端云一体的商用方案。他还将筹建两个实体声学实验室。

4月20日,阿里全资收购大陆唯一的自主嵌入式CPU IP Core公司中天微,很多技术也是面向IoT领域。

“阿里IoT战略必须要做资源可控、技术可控、拥有核心竞争力的事情。”阿里巴巴CTO张建锋说,这也是达摩院组建以来最重要的研究突破方向之一。

去年10月,阿里宣布成立以“达摩院”为名的全球研究院,目前已在全球多点设立科研机构,立足基础科学、颠覆性技术和应用技术研究。

将来会在语音专用芯片上有进展

问:先声互联总计多少技术人员会加盟阿里?团队阵容的介绍?

答:是全资收购,主要是技术、人才的收购。

加盟的技术人员加上我共5人,其中4人是声学所原班人马,也都是在该领域中技术沉淀较久,实际落地经验非常丰富的。

团队核心算法人员包括我之前带的学生和从杜比实验室出来跟我一起创业的。他们的共同特点都是能文能武,既能写出IEEE trans.这样的领域内国际顶级刊物学术文章,又能深入到实际产品研发。对贯彻理论到实践的统一理念,起了重要的作用,也使得我们技术有自己的原创特色,并非跟随。

问:您为什么选择做声学研究这条路线,为什么后来选择创业,为什么选择加入阿里巴巴?

答:做语音处理是硕士起就开始了,至今已有20多年了。那时谈不上选择,就是导师的课题需要做语音就开始做了,那时做语音也并不吃香,虽然有机会转别的方向,不过我喜欢做事做透,就一直做下来了。

“和有情有义的人,一起做有价值的事”,一直是我坚持的原则。有机会去实现自己的理想,自然也就没什么犹豫,选择创业是这样,选择加入阿里更是这样。

问:先声互联此前研究和要解决的核心问题是?

答:语音交互,作为人机交互中最自然的方式,其真正的价值是让人在无限制的场景说话,然而语音交互应用在实际的场合经常会受到背景噪声、非平稳干扰、设备回声、以及房间混响等声学不利因素的影响。可以说,机器听觉的噪声鲁棒性与人的听觉机制比还是不少差距的。

先声互联综合利用了多麦克风空间滤波、语音分离、解混响和声源定位等多项基于物理建模的信号处理技术,并融合了基于机器学习的数据建模机制,甚至是语义层面的信息,为复杂声学条件下的语音交互提供前端处理技术和方案。

问:目前您负责研究的这一技术,在全球行业内的相对位置是怎样的?在这一领域,中国和世界处在同一起跑线吗?我们的相对优势有哪些?

答:国内的相关技术积累并不落后,但缺乏成功的产品带动。

我们在中科院声学所时,团队在前端处理技术环节上就比较成熟了,相比于国外这些产品级的技术并不落后,在信号处理与唤醒和识别等语义层面的信息融合方面还是更进一步的,也暨此落地了不少实际产品,但由于语音交互技术链条很长,在缺乏对端到端交互系统流程把控和优秀的产品设计前提下,一些更好的想法很难体现出来。

相信在阿里这个大平台会有更好的机会发挥价值。

问:目前在机器智能技术实验室,有哪些重点攻克的难题或研发项目可以透露?

答:短期目标是帮助语音交互技术在多种场景和终端上落地,在复杂环境下保持正确的识别率。

从PC时代、移动互联网时代,到物联网时代,对人机自然交互、沉浸式的体验越来越高。这对语音交互前端处理技术的挑战是不同的。如:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 地铁机场等场景:有人流声音、有喇叭音,背景音嘈杂
d47e62d2b349aca45e42305ed6714efbe5ed61d9 家庭场景:噪音没那么复杂,但涉及到混响、回声处理
d47e62d2b349aca45e42305ed6714efbe5ed61d9 车载场景:不远不近、混响小,但涉及到胎噪、风噪等扩散场噪声

在这些场景中,我们都有不同的终端产品已经或即将落地量产,在业界也都引起不小的影响。在这些已有成绩的基础上,我们会在技术深度和方案的可复制性上有更多的布局。

特别地,针对IoT化的智能家居的需求,我们正在研发基于小阵列语音增强技术的低功耗、低成本、高集成的端云一体语音交互技术和硬件方案。随着阿里在芯片上的战略布局,我们也会在语音专用芯片上有更多进展。

问:关于未来,还有哪些计划是可以透露的?

答:我和团队最近在筹建专门用途的声学实验室。

这个声学实验室主要目的是用于复杂声学环境下的语音交互系统在线端到端测试。

有别于现有的远讲语音交互测试认证方法,它的主要特色是基于多扬声器系统声场重建的原理在局部区域内建立真实的声场,也就是说家庭、车载和户外等场景的声场条件,使得待测终端在实验室内就能置于近似真实的声场中。在此基础上,更重要的是建立自动化的,包括前端信号处理能力、唤醒率、识别率乃至对话成功率的,全链路端到端测试系统和流程。该实验室的建设和系统搭建,将会大大提升阿里对语音交互IoT终端设备赋能效率和产品质量。

问:目前我们机器“听清”的能力,和人相比在一个怎么的水平?机器的耳朵会比人更灵敏吗?

答:现在实际的语音交互系统,尤其在远讲条件下,与人类的听觉机制相比还是有不小的差距的,主要表现在极低信噪比和多人说话(所谓的鸡尾酒会问题)的情况。

随着多模态融合和深度神经网络建模技术的进展,这些问题会有更好的解决方案,阿里在这方面的技术布局也早就开始了。


原文发布时间为:2018-05-3

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:阿里全资收购先声互联 前中科院声学大牛付强带队加盟

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
SQL 人工智能 运维
国内仅200个专业人才,笛倍通致力做数据库调优市场“拓荒者”2021阿里巴巴诸神之战山东站系列报道
数字化浪潮加速了各行各业的融合发展,有力驱动了科技创新和场景创新。正在进行中的“阿里巴巴诸神之战山东站暨智汇谷创新创业大赛”涌现了诸多具有发展潜力的优秀创业团队和科技创新项目,创头条对其中优秀的参赛企业进行系列报道,本文是该系列报道之一。
141 0
|
SQL 人工智能 运维
国内仅200个专业人才,笛倍通致力做数据库调优市场“拓荒者”|2021阿里巴巴诸神之战山东站系列报道
数字化浪潮加速了各行各业的融合发展,有力驱动了科技创新和场景创新。正在进行中的“阿里巴巴诸神之战山东站暨智汇谷创新创业大赛”涌现了诸多具有发展潜力的优秀创业团队和科技创新项目,创头条对其中优秀的参赛企业进行系列报道,本文是该系列报道之一。
|
物联网
法国速度与中国创新——揭秘东风雪铁龙与阿里、斑马首款合资互联网汽车
8月15日,神龙汽车同AliOS及斑马网络在阿里巴巴飞天园区举行了一场媒体沟通会,分享了旗下首款合资互联网汽车SUV云逸研发背后的故事。
2350 0
|
人工智能 物联网 大数据
中德总理见证,世界最大工业互联网平台牵手阿里云
北京时间7月9日晚,阿里云与西门子在德国柏林签署合作备忘录,共同推进中国工业物联网的发展。协议签署后,两家公司将立即展开合作,并计划于2019年推出部署于阿里云的MindSphere平台。
2451 0
|
城市大脑
阿里巴巴收购中兴软创,城市交通大脑快马加鞭!
2018年2月9日,中兴通讯股份有限公司发布《关于转让中兴软创科技股份有限公司部分股份相关事宜的公告》公告(以下简称“公告”)。 公告称南京溪软企业管理合伙企业(有限合伙)(以下简称“南京溪软”)以及中兴软创科技股份有限公司(以下简称“中兴软创”)于 2018 年 2 月 9 日签署了《股份转让和新股认购协议》,中兴通讯以 12.233 亿元向南京溪软转让所持控股子公司中兴软创 43.66%股份,同时,南京溪软对中兴软创增资 1 亿元。
7084 0

热门文章

最新文章