阿里云人工智能ET
华先胜
国际电气与电子工程协会院士(IEEE Fellow)、美国计算机协会ACM2015年度杰出科学家、曾获MIT TR35大奖(全球35位35岁以下的杰出青年创新人物)。
初敏
在阿里云iDST (Institute of Data Science and Technologies)自然语言服务部门负责语音、自然语言交互等方面的研发工作。
闵万里
长期从事机器学习理论研究与应用算法研发。在脑电波(EEG)解析、高维数据挖掘、随机过程理论、时间序列分析、网络流理论等领域获得多项国际专利。
1 ET背后的技术亮点有哪些?
华先胜: 视觉技术方面,当时展示了两点。一个是图像识别,或者叫看图说话。通过一副图片去了解这个图片里有些什么东西。也就是我们经常过去谈到的这个Who,What,Where。当时展示的这个技术比这稍微再往前一点,不仅对一个图像进行词的描述,还用一句完整的话来描述它。另一个功能是视频事件检测。这个过程中,ET要看很多图或者看一段时间才能识别的图。比如说这次展示的体育视频,要自动能够检测到上篮,得分等动作。
初敏: 整个在ET里头,语音交互最重要的是穿插,把所有的东西结合起来。首先它要理解你的意图。然后,把对的东西,比如说该做的视频的讲解讲出来,该做的看图说话能做出来,交通预测能讲出来,所以实际上是一个交互。就是我能理解你想干什么,理解人的目标,然后去找到那个最合适的数据的服务。当时现场模仿马总讲话,模仿孙权讲话,这些呢,实际上就是一些润色,就是ET将来不是干巴巴的一个标准的播音员,而是说我们在不同的场合,可以让它用不同的方式来跟人交流,使这个交流能变得更多样化。
闵万里: 展示中,ET预测了未来的交通情况,这意味着它具备了这样一种能力,就通过现在的情况它能够去推演未来,就是带有一种洞察性。ET,它不再是一个简单被动的一个响应指令的机器,它在某种程度上已经区别了一种自主性的前瞻的一种肯定和欲盼。
2 ET的应用场景
- 分析识别 :知道这个场景里有什么,视频里有什么,图像里边有什么;
- 搜索 知道你想要获取什么样的数据。现在的数据量是非常大的,怎么样从这个大量的视觉信息里边去找到你所想要的东西。
- 生成合成 :对某个场景的视觉信息进行分析后,还要合成一些东西,虚拟一些东西。这里面比如像VR,AR,像视频的广告,等等这些东西,实际上你要合成一些东西出来,使的这个你合成的东西融入到这个场景里面去,以达到这个各种各样的应用的目的。
- 视觉大数据的分析计算平台 :视觉信号那么多,必须要有个大平台,让计算能够顺利的完成。
- 会议实时语音识别 :今年,云栖大会的主会场的屏幕上都会有时时的滚动字幕。这个字幕已经不再是人打上去的,而是我们ET自己去识别的。
- 法院庭审 :今年,浙江高院做了全国第一次尝试,就是整个的法庭的案件审理就用语音识别来做速记。语音识别给法官提供的是原汁原味的速记。就是每一方讲的,每一句话的原始的样子,这个原汁原味的资料对他们后续处理有更大的价值。
- 企业客服 :在阿里巴巴集团,蚂蚁金服,包括1688,整个阿里系的内部的所有客服都用上了阿里云的这个技术。
3 人工智能落地的五个关键因素
- 第一个是有强大的算法设计能力,算法研发能力,以及深度学习的技术。
- 第二个是数据。没有数据,再强大的模型,强大的算法也是没用的,那就叫巧妇难为无米之炊。
- 第三是强大的计算平台处理数据。要去Model的这个事件,处理的数据量非常大,需要去Model的真实世界往往是非常复杂,往往又是多变的,往往是动态的,那么需要非常强大的计算能力才能支撑,才能够把你的算法得以实现,才能够处理那么多的数据。
- 第四个是必须要有用户。当然,这个用户含义比较广。因为有用户才有需求,这个需求带动这个技术的发展。再则,用户本身也是数据贡献者。在人工智能的这条路上,这个人的参与也是非常重要的。广义来说也这个反馈也是非常重要的。有时候这种反馈不见得是人的,有可能是环境的反馈,甚至是一些虚拟的Action的一些反馈,比如像增强学习。最后也是有个反馈,成功的失败的也是有个反馈,这其中人的反馈可能是最重要的,也是量是最大的。人的反馈本身也是一种数据,对这人工智能的这个演进也是起着非常关键的作用。
- 第五是商业模式。没有好的商业模式,它就很难长久。很难能够支撑这么多投入,也很难说真正的给社会带来实在的价值。