阿里在人工智能和物联网领域又落一子。这次,瞄准的是智能语音交互。
今天,阿里宣布全资收购北京先声互联科技有限公司(以下简称“先声互联”)。同时,先声互联创始人、中科院声学所前研究员付强博士,正式入职阿里达摩院机器智能技术实验室,负责语音交互前端处理技术和方案的研发。随付强一同入职的,包括先声互联创始团队的多名资深专家,他们多为付强在中科院的原班人马,其中一位来自著名的杜比实验室。
一支能文能武的团队
先声互联是国内最早从事语音增强、远讲语音交互接口技术的团队,曾为阿里、百度、小米等多家公司提供远讲语音交互软硬件的解决方案。
创始人付强拥有二十余年语音信号处理研发经历,在美国OGI等语音研究机构从事过博士后工作,回国在中国科学院声学研究所担任研究员,曾牵头完成了国家自然科技基金国家、省部委几十项科研课题,在包括IEEE Trans.在内的国际权威学术刊物上发表论文近百篇,发明专利近二十项,多项成果被相关部委列装。
2016年12月12日,付强创办了先声互联,次年便获阿里巴巴A轮投资。公司成立一年零五个月后,合作伙伴和客户已经涵盖BAT、小米、360、TCL、海信、海尔、地平线机器人等。
“有机会去实现自己的理想,自然也就没什么犹豫,选择创业是这样,选择加入阿里更是这样。”付强表示,目前国内在语音的前端处理技术上的积累并不落后,只是由于语音交互技术链条很长,在缺乏对端到端交互系统流程把控和优秀的产品设计前提下,一些更好的想法很难体现出来。
付强相信,“在阿里这个大平台,会有更好的机会发挥价值。”
此次加盟阿里的,加上付强共有五人。除了一位来自杜比实验室的资深专家,其余四人均是声学所原班人马。
“共同特点是能文能武,既能写出IEEE trans.这样的领域内国际顶级刊物学术文章,又能深入到实际产品研发。”付强说。
助力阿里IoT场景落地
4月初,阿里宣布全面进军物联网领域。付强带领声学团队加入,将成为阿里IoT场景落地的关键一环。
去年下半年,前宝利通首席工程师冯津伟加入阿里,进行上海地铁语音售票机的研发,这是全球首个强嘈杂环境下的语音交互产品。
付强加盟后将整合资源,推动语音识别技术的场景落地,形成软硬结合、端云一体的商用方案,他还将筹建两个实体声学实验室。
“短期目标是帮助语音交互技术在多种场景和终端上落地,在复杂环境下保持正确的识别率。”付强表示,物联网时代对人机自然交互带来更高的要求,不同的场景给技术带来了不同的挑战——比如地铁机场等场景:有人流声音、有喇叭音,背景音嘈杂;家庭场景:噪音没那么复杂,但涉及到混响、回声处理;车载场景:不远不近、混响小,但涉及到胎噪、风噪等扩散场噪声
“在这些场景中,我们都有不同的终端产品已经或即将落地量产,在此基础上,我们会在技术深度和方案的可复制性上有更多的布局。”付强透露,针对IoT化的智能家居的需求,团队正在研发基于小阵列语音增强技术的低功耗、低成本、高集成的端云一体语音交互技术和硬件方案。
4月20日,阿里全资收购大陆唯一的自主嵌入式CPU IP Core公司中天微,很多技术也是面向IoT领域。付强表示,“随着阿里在芯片上的战略布局,我们也会在语音专用芯片上有更多进展。”
“阿里IoT战略必须要做资源可控、技术可控、拥有核心竞争力的事情。”阿里巴巴CTO张建锋说,这也是达摩院组建以来最重要的研究突破方向之一。
去年10月,阿里宣布成立以“达摩院”为名的全球研究院,目前已在全球多点设立科研机构,立足基础科学、颠覆性技术和应用技术研究。
原文发布时间为:2018-05-3
本文作者:孙茜茜