以下为精彩视频内容整理:
阿里智能语音交互团队的成果展示
阿里的智能算法团队是从2014年底正式开始起步的。3年的时间里,在商业及公共场所方面,团队做了有全国近300家法院已经投入使用的智能语音庭审产品、包括2016年杭州云栖大会等系列100多场大会的实时字幕语音产品、超过10家企业使用的节省70%人工审核成本的视频审核产品,还有使用时长超过1千万小时的智能语音客服机器人等产品;在用户方面,团队还做了NUI(Natural User Interface)自然交互平台系列产品,例如和海尔合作的海尔人工智能电视、和上汽合作的荣威RX5互联网汽车、前不久上线的上海地铁语音售票机等产品。
智能语音交互技术是什么?就是通过说话,让阿里所掌握的导航和音乐等线上应用,和用户的手机、电脑、汽车等终端进行联动的技术。阿里智能语音交互团队在成立初期的发展方向有两个,一个是快速占领市场,另一个是开发全链路完整有效的技术。如果要求快速占领市场,一些关键的环节上不可避免的需要使用市场上已经发布的技术。
运用成型技术的好处是开发速度快,坏处是遇到技术壁垒时解决问题程序复杂,并且拼凑出的产品很难达到最好的运行效果。如果要求完整的技术能力,那么团队的组建方面短时间很难达到成型产品的要求。
幸运的是从语音团队组建到项目运行,我们走了一条速度快同时技术比较完整的路。从麦克风的硬件设计到具体的产出,都有阿里自己人在做全链路投资。虽然过程很痛苦,招聘也很困难。但是我们找到了愿意跨界到互联网公司的科学家、甚至是物理学家,让他们融入团队并且在团队中发挥独特的价值,是相当不容易的事情。团队经过三年时间完成了技术的全栈积累,让每一个关键的任务点都有相应的顶尖人才在把控对应工作。
回到进行智能语音交互的初衷——做可以落地实施的人工智能,我们可以从技术、产品、商业这三个维度来进行思考和分析。后面我会以荣威RX5互联网汽车作为案例,讲解如何在团队实践下把这三个维度有机的串联到一起。
荣威RX5背后的技术、产品和商业实践
什么是技术型团队?就是团队能通过努力去拥有完全自主可控的、世界一流的技术点,并且把技术点串联起来去持续的创新技术和产品。技术占最小区域的意思是技术不是万能的,但是没有技术也是万万不能的。第二个是产品,光有高技术是不可能做出一个高质量的产品,落地实施的过程中各种细节当中的魔鬼会一一显现,这是团队实施过程中的深刻体会。以语音交互为例,特别需要有业界顶尖的交互设计师或者产品经理把现有的技术组合成一个用户认可的产品,可偏偏这样的设计师和产品经理少之又少。很多产品经理不是语音交互行业出身,他们往往从常识方面去设计语音交互产品,但这样设计的背后是缺乏理论基础的。同样缺少的是能落地的科学家技术团队。最后是商业,好的产品是要被市场所检验的。回到语音交互行业,百箱大战——一百个智能音箱的战争,大家是否思考清楚做这个产品的初衷,定价定在哪个范围,市场容量是如何,怎样通过供应链等完全非技术手段减低成本?这些问题要在做产品之初就思考清楚,正所谓谋定而后动。
荣威RX5互联网汽车是阿里和上汽合资成立的斑马网络做出的新型互联网汽车。这个汽车在8月份销量2万辆,同比增长143%,已经成为现在互联网汽车行业的标杆型产品。我们就荣威RX5为例,来讲述技术、产品、商业这个闭环在阿里的实践和思考。
从商业方向考虑,阿里一开始就打算直接造自己的汽车,因为我们相信平台公司的价值。阿里和上汽合作成立了一家合资公司——斑马网络,专攻车载智能系统。这样的模式反而能发挥云+端的各种优势——端上有上汽,云上有阿里。
三年前的一次头脑风暴成就了荣威RX5,也奠定了互联网汽车的基础轮廓。现在看来特别自然的产品形态在三年前初创时期还是冒着很大风险的。首先我们确定了车的定价:10-15万,这是一个很重要的因素。第二步确定了车型是SUV,而不是轿车或者其他车型。现在数据显示SUV品类在中国的畅销程度是空前的。第三步是确定互联网汽车应该具有哪些功能?团队选择随时在线、地图即桌面、全语音操控这三项基本功能。荣威RX5是沉浸式开发,采用地图即桌面,其他功能全部使用在线语音小助手对用户进行服务,实行全语音操控。通过运用技术,汽车终端和云上的地图、音乐、电话等功能相连接,经过“技能”在云端不断升级和进化,使得产品越来越受到欢迎。
第一代机车由于阿里语音团队刚刚建立来不及进行技术攻克,所以当时选用了世界上最成熟的第三方vendor提供的语音交互技术。真正使用阿里技术的是第二代机车。自主开发的好处当然不言而喻,诸如独立自主、说干就干、响应快速、成本优势、云端不断解锁技能等。但是马车不是吹跑的,项目实施过程中问题也会接踵而至。自主需要勇气,同时也需要底气。做车载的技术替换,仅仅复制上一代车的能力远远满足不了用户和老板的需求。这就给技术团队提出了很大的挑战,不仅要迅速的追上第一代机车的技术能力,甚至还要在某一些方面超越之前的技术,要有亮点。通过技术团队的详细分析和梳理,团队发现上一代机车最大的痛点就是只有主驾驶可以使用全套的语音操控系统,副驾驶的唤醒完全不起作用。第二代机车针对这个痛点,做了主驾副驾均可使用功能。技术的关键点是主驾副驾需要互不干扰的进行语音交互,例如坐在副驾驶位置上的人正在进行电话沟通,坐在主驾位置上的人可以完全不受影响的对互联网车发布指令。在如此狭小的空间内,做到这一点需要非常强的信号处理能力。通过把第二路的声源作为噪音去处理,达到不会影响第一路纯净信号指令能正常操作的目的。
更大的难点集中在整个的系统升级过程中硬件设施是不允许升级的。我们在封顶的左边和右边分别设置两排麦克风的阵列作为收集信号装置,分别指向主驾驶和副驾驶。指向主驾驶的时候,副驾驶作为干扰源,把实时收集信号中作为干扰源的部分减掉。于是这台机器可以耳听两方,同时监听两路信号。整个运算力通过low frame rate 声学模型的分解在完全没有硬件升级的状况下降低运算量,让车载系统的召回率和误唤醒的指标不会有明显的变化。
第二代机车还升级了比如兴趣点的全语音搜索,one-shot命令直达,还有互联网的迭代更新等功能,可以让汽车变得越来越好玩。
最后进行落地实施过程中,团队成员们能够通过自己的实践和能力把在天上红红火火的AI变成底下实实在在的产品,是一门很深的功夫。阿里讲究落地实施,对团队的成员基本要求是科学家要会“武术”,不但要研究和开发做的好,同时落地的本事不可少。这就是阿里语音交互团队的“武术”修行之路,时间不止,交互不休,希望演讲能给大家带来一些思考和共鸣。
本文由云栖社区志愿者小组王晓慧整理,毛鹤审校。编辑:郭雪梅。