阿里鄢志杰博士:“达摩院”要做下一代颠覆性的人机交互

简介: 近日,飞象网记者对阿里iDST (Institute of Data Science and Technologies) 智能语音交互团队总监鄢志杰博士进行了专访,从阿里iDST发展战略、平台建设、自然人机交互技术等多角度揭开阿里智能语音交互的神秘面纱。

人机之间的自然交互一直是人工智能领域的一个美好愿景,而语音是人机交互中最重要的手段之一。随着人工智能的迅速崛起,新一轮语音技术变革已经跃然眼前,成为科技巨头们争相攻下的堡垒。

近日,飞象网记者对阿里iDST (Institute of Data Science and Technologies) 智能语音交互团队总监鄢志杰博士进行了专访,从阿里iDST发展战略、平台建设、自然人机交互技术等多角度揭开阿里智能语音交互的神秘面纱。


“达摩院”要做下一代颠覆性的人机交互


PC时代,人们与机器通过键盘和鼠标交流,与机器“沟通”需要学会打字、按键操作;移动互联网时代,人们与智能手机通过触摸屏幕交流,只需滑一滑手指即可完成任务;未来智能时代,机器将更像人类的一员,与它之间的交互方式将更趋同于与人之间交互。而要做到像“人”一样交流,机器就必须具备语音识别技术。

因此,语音识别将是未来人机交互的入口,如果没有这个入口的话,你可能反而会觉得这台机器不够“智能”。为了能够在这个即将到来的生态系统中抢占制高地,各大科技巨头越来越重视语音技术发展,Google有Assistant,亚马逊有Alexa,微软有Cortana,Facebook有ParlAI,无不在加大语音识别的研发力度。

作为国内BAT三巨头之一,阿里在今年的云栖大会上宣布千亿元成立“达摩院”,研究领域包括:量子计算、人工智能、机器学习、视觉计算、自然语言处理、下一代人机交互等。而鄢志杰博士所在的IDST,则被外界称为阿里最神秘的部门,它是达摩院在下一代颠覆性人机交互技术和用户体验方面的核心团队,其中还包括鄢志杰博士负责的智能语音交互。

鄢志杰博士看来,达摩院要做的是面向未来10年、20年后的下一代的人机交互,将是突破现有“一问一答”层面的全新一代交互,人机交互会越来越自然,而实现这一突破的关键在于“多模态和主动交互两大技术的融合”。

“相比传统单一的交互模式,阿里IDST更重视多模态和主动交互技术的融合,它主要基于传感器技术,融合了视觉、听觉、触觉、嗅觉等多种交互方式,机器可以更象人,表达效率和表达的信息完整度更高,是智能交互的发展趋势。”

鄢志杰博士举了一个例子,通过传感器技术可以感知我们所处环境的温度,比如天气热时室内温度比较高,机器就会帮我们把空调打开,而现在的智能家居,还只能被动的接受指令。

这样的应用场景看似简单,但实现起来还是有诸多技术难点需要解决的。鄢志杰博士表示,要做到下一代的人机交互体验,还需要解决三大问题:

1、怎么把传感器采集到的信号进行融合,从而产生融合以后的交互体验,这个是有距离的。因为现在传感器收集的信息是割裂的,比如摄像头在做人脸识别,麦克风在做语音设别,真正融合的还没看到。

2、传感器采集的信息还处于感知层面,相对还是比较浅层的,真正认知层面还是有距离的。

3、交互形式单一,现在无非是屏幕或TTS(从文本到语音),怎么把视觉、听觉、触觉、嗅觉等多种交互方式融合到人机交互中还没有突破。

鄢志杰博士表示,人机交互其实就是用户获取服务的过程,而阿里智能语音交互扮演的是中间桥梁的作用,它通过语音连接多端,跟互联网上广泛的服务对接,为用户提供所需的服务。


通过阿里云输出语音能力


阿里的iDST部门除了负责建立自然语音交互平台,另外一个重要任务是通过阿里云输出语音能力,帮助阿里及其合作伙伴去做具体业务。

“我们最开始做这样的能力,完全是从阿里内部客服中心的需求来出发的,因为阿里每天淘宝、天猫和支付宝每天都有上百万次的客服电话,而且这一数字还在快速增长。所以,当我们把语音能力引入到电话客服呼叫中心,就可以把语音转换文字,做服务质量的质检,并将一些自动化的规则和模型引入进去,使得服务质量能够保证。目前,通过阿里语音质检系统已经输出有1.2亿个电话,客服机器也有超过1亿的处理量,阿里的语音能力已经把传统的客服呼叫中心,打造成智能的呼叫中心。”

鄢志杰博士表示,阿里整套AI的能力就是帮助传统行业提升效率,而且原来在比拼准确识别率,而阿里要比拼的是大规模低成本的定制能力,能够对各个垂直领域进行定制,并和其他的模态进行融合,形成例如电话客服系统或庭审系统,来提升整体的生产效率。

此外,针对直播网站,阿里语音还在业内一个推出了语音审核的产品,和图像审核是放在一起的,主要来监测视频内容是否违规或有不良的内容,这一技术可以帮助视频网站节省70%的人工成本。在政府部门,阿里语音技术也有广泛应用,例如司法系统,有这样的生产力工具可以大大提升效率。

在2C领域,通过Link-Voice平台将语音能力进行输出,鄢志杰博士表示,“我们是站在端和云的中间,端就是各类终端,包括电视、汽车、音箱、IOT设备等,云端就是阿里过往布局的互联网内容和服务,Link-Voice配合阿里云IoT的智能生活开放平台,使得厂商在设备智能化过程中能一站式地集成语音交互,极大地缩短了开发周期,帮助厂商占据市场先机。”

目前阿里云IoT团队和iDST团队已经深度共建从设备端的唤醒、拾音到云端的语音识别、语义理解及服务执行和语音合成整体语音交互解决方案,并通过Link-Voice平台把能力开放给所有合作伙伴。

在平台建设方面,Link-Voice平台已经具备完善的生态产业链,已覆盖音乐、智能家居控制、生活服务、个人助手等核心高频服务及内容。拥有Rokid、LinkPlay、芯中芯、庆科等行业内经验丰富的合作伙伴,产出了单麦、双麦、四麦、六麦等一站式软硬件一体解决方案。传统音箱及其他家电厂商可以快速基于Link-Voice平台的体系完成智能语音交互升级。

据了解,阿里云IoT平台的设备出货量在国内排名第一,已经覆盖一百多个品类,合作一千多家品牌,已经有20余款音箱产品及跑步机、按摩椅、家庭中控屏幕等产品使用Link-Voice的服务进行售卖,出货量达千万规模。


智能家居需要“统一语言”来交流


近两年,亚马逊Echo的出现引爆了智能音箱市场。据统计,亚马逊Echo在2016年销售量超过650万台,预计2017年超过1000万台,继亚马逊之后,谷歌发布Google Home智能音箱,苹果也发布了HomePod智能音箱。与此同时,阿里、京东、联想、喜马拉雅等也纷纷入局。

巨头们的杀入以及中小厂商的蜂拥而上,一度提升了智能音箱市场成为风口的可能性。对此,鄢志杰博士表示,智能音箱的火爆是因为在美国市场Echo取得了优异的成绩传导到国内市场的结果,我们也希望在国内市场能智能音箱行业能尽快取得爆发式增长,目前各大巨头都已经布局该领域,我们不排斥竞争,这个市场需要大伙一起来培养和教育。

除了智能音箱,鄢志杰博士认为传统设备的语音交互升级也是个巨大的市场。“用户可能很难为一个类似智能音箱的新物种买单,但容易接受以稍高一些的价格购买带有语音交互的传统家电设备。比如我们在云栖大会前夕发布的智能语音跑步机,在市场上就取得非常好的反馈。”

但是,智能语音也面临一些挑战。目前智能家居平台各自为战,拥有各自的通讯协议,用户购买不同平台的设备就要安装各自新的App,很难集合各家平台到统一的控制中心。阿里云IoT拥有国内最大的智能家居平台,并主导成立ICA互联互通联盟,目前已经有100余家厂商加入该联盟,越来越多的设备正在采用统一的“语言”来交流,这为语音控制家居打下了非常好的基础。

相关文章
|
3月前
|
存储 机器学习/深度学习 人工智能
未来已来:AI技术的最新趋势与前沿探索
【7月更文第20天】在这个日新月异的时代,人工智能(AI)已经从科幻概念逐渐深入到我们日常生活的方方面面,其发展速度之快超乎想象。从基础的语音识别、图像分析到复杂的决策制定、自动驾驶,AI技术正以前所未有的力量推动着社会进步。本文将带您一同展望AI技术的未来发展方向,深入探讨量子计算、生物计算等新兴领域的前沿探索,以及它们如何重新定义AI的边界。
158 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
技术新浪潮:正在崛起的AI工程师
技术新浪潮:正在崛起的AI工程师
187 0
|
人工智能 达摩院 异构计算
阿里巴巴的AI实首发人工智能全阵型,平头哥、达摩院、阿里云三位一体
9月26日,阿里巴巴在杭州云栖大会上首次公布人工智能调用规模:每天调用超1万亿次,服务全球10亿人,日处理图像10亿张、视频120万小时、语音55万小时及自然语言5千亿句,已经成为中国最大的人工智能公司。
|
人工智能 达摩院 城市大脑
AI崛起,阿里的科技孵化力|甲子光年
电商孵化了云,云孵化了AI,这场“技术拓边”的接力棒还将进行下去。
1160 57
AI崛起,阿里的科技孵化力|甲子光年
|
人工智能 算法 安全
角井生物牵手龙蜥社区,开创 AI 医药研发新篇章
角井生物加入龙蜥社区,与社区伙伴们一起,首次在操作系统层面将 AI 技术引入新药开发,包括应用龙蜥操作系统(Anolis OS)的'国密'算法加密生物医药信息,为龙蜥社区贡献面向新药开发的底层 AI 算法和软件模块。
角井生物牵手龙蜥社区,开创 AI 医药研发新篇章
|
机器学习/深度学习 存储 人工智能
制造业的AI之心,生态之力
制造业的AI之心,生态之力
制造业的AI之心,生态之力
|
机器学习/深度学习 新零售 人工智能
软硬结合AI加持?智能硬件独角兽的求生之路
软硬结合AI加持?智能硬件独角兽的求生之路
软硬结合AI加持?智能硬件独角兽的求生之路
|
机器学习/深度学习 人工智能 自然语言处理
机器之心GMIS 2017圆满闭幕,全面解读前沿研究、产业落地及AI全球化
5 月 28 日,机器之心主办的第一届全球人工智能峰会(GMIS 2017)顺利闭幕。在为期两天的大会中,许多学界和业界的重量级嘉宾在 GMIS 的舞台上分享了机器学习的前沿进展、交叉学科的新奇思想、人工智能的炫酷应用以及机器智能时代的创业经验。在第一天,有「LSTM 之父」之称的 Dalle Molle 人工智能研究所副主任 Jürgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋等嘉宾为我们带来了干货十足的头脑风暴和前沿解读。
142 0
机器之心GMIS 2017圆满闭幕,全面解读前沿研究、产业落地及AI全球化
|
机器学习/深度学习 人工智能 自然语言处理
空无达摩院——机器智能技术的发展
本次视频空无达摩院通过图像视觉、语言交互、自然语言处理、决策智能四个方向以及应用产品的介绍,向大家分享机器智能技术的发展,通过分析“大数据+算力”,讲解当今AI发展的动力,最后给大家分享了AI关键技术,希望通过技术创造新商业。
739 0
空无达摩院——机器智能技术的发展
|
机器学习/深度学习 人工智能 算法
【中国强势打造世界新智极】AI、量子计算、区块链三位一体,25位AI领袖预测智能大跃迁 | 新智元峰会
3月29日,2018新智元产业跃迁AI技术峰会上,25位AI领袖做了覆盖技术、学术和产业最前沿的报告和讨论,盛况空前。新智元创始人兼CEO杨静首次提出要打造世界新“智极”的概念,新智元AI+产业生态平台启动。2018开年AI盛典,精彩就在这里!
10162 0