演讲嘉宾简介:高杰,达摩院机器智能实验室资深算法专家
以下内容根据演讲视频以及PPT整理而成。
本文将站在技术角度为大家分享阿里云智能达摩院能够为大家提供的AI产品矩阵。
近年来,“人工智能”一词可以说是非常火热。而就在两三年前,大家对于AI的认知还只是“AI是一个先进的技术,它可以在下围棋这件事情上超过世界冠军。”但是如今,AI已经成了一个技术浪潮,甚至是一个社会潮流,这也体现了整个社会对于AI技术的高期望。我们期待AI能够让机器人探索大自然,期待AI能够建立媲美自然的数字神经系统,期待AI能够战胜重大疾病,以上的这些期望在长远的未来必将发生。而对于阿里巴巴而言,对于AI的探索要更加脚踏实地一些,因此阿里所关注的也是AI如何与当前人类社会的各种生产活动产生互动和生产价值的场景应用,并且也做了各种各样的尝试。
到今天来说,阿里巴巴已经将AI实现了大规模商业化应用,一个非常实际的案例就是刚刚过去的“双11”。而大家所不知道的是:我们“双11”疯狂购物的过程已经被全线的AI技术所覆盖了。
如今,大多数的用户往往会使用手机淘宝进行购物,而在手淘的主页右上角就有一个功能,称之为拍立淘。拍立淘的背后是将全网的4亿多件商品以及30亿张图片进行了索引。当大家进入到某一个特定店铺的时候会看到很多的宣传栏,特别是首页Banner。而如今,很多淘宝店铺首页的Banner是由AI设计师——鹿班系统自动生成的。目前,淘宝全网有上百万家商铺,而每一家商铺都希望能够让自己的店铺页面设计变得更加吸引人,而设计店铺页面本身需要非常专业的技术和人员,如果想要依靠人工来为这些店铺设计首页和图片,那大约需要一千万名设计师参与,而全中国的设计师也才只有几十万名,而且大多分布在大公司中。因此,对于中小型企业而言,则可以使用基于AI的鹿班设计师系统。用户只需要简单地调用API,就能够为自己的店铺生成非常漂亮的Banner以及图片,并且可以每天自动上线和更新。再进一步,当大家选购商品时可能对于一些商品的信息不清楚,因此,需要点开咨询窗口与客服进行沟通,而这背后其实也有阿里巴巴的AI技术。基于阿里小蜜背后的知识库,就能够回答用户所提出的约80%的问题。最后,当用户购买完商品进行派送的时候,在物流流程中也有AI系统存在,这里的一个例子就是菜鸟语音助手。在“双11”的时候,快递员会非常忙碌,因为每天需要派送很多货物,而在送货时还需要逐一确认收货人是否在家,当有了菜鸟语音助手之后,这一步骤能够完全由机器帮助完成。仅在“双11”当天,菜鸟语音助手就帮助快递员拨打了总计16万小时的电话,为快递公司节省了巨大的人力成本,产生了巨大的价值。
达摩院:以科技,创新世界
在正式介绍阿里云智能达摩院AI产品之前,先为大家介绍阿里达摩院人工智能实验室。阿里达摩院于2017年10月11日正式成立,定位于应用驱动的基础科学和创新技术研究。与其他大公司的研究院有所不同,阿里巴巴更希望依靠阿里巴巴经济体内部各种各样丰富的研究来驱动技术的进步,驱动这些技术进入到真实的应用场景中去,最终能够实现系统性的创新。
全球布局,全栈式技术创新
达摩院的研究领域简单而言就是“4+X”,这里的“4”包括了机器智能、数据计算、机器人以及金融科技,“X”指的是X实验室。机器智能包括视觉智能、语音智能、语言技术、决策智能、城市大脑等;数据计算包括了底层的计算技术、智能计算以及数据库与存储等;机器人则包括了智能物流以及无人车等;金融科技包括了区块链、生物识别以及金融智能等。而一些更为前沿的技术,如量子计算等则放在了X实验室。如今,达摩院已经成为了一个全球化的研究机构,达摩院的300多位研究人员分布在全球4个国家的7座城市中。
机器智能技术实验室(MIND)简介
本文中所介绍的主要内容基本都是和达摩院机器智能技术实验室相关的。达摩院机器智能实验室(MIND: Machine IntelligeNce of Damo)由一批杰出的科学家及工程师组成,分布在杭州、北京、西雅图、硅谷、新加坡等地,是阿里巴巴负责AI人工智能技术研发的核心团队。机器智能技术实验室以阿里巴巴宝贵的海量数据为基础,深度学习/机器学习/机器学习技术为依托,打造涵盖决策智能、图像视觉、语音交互、自然语言理解等的核心人工智能技术,充分 赋能电商、金融、物流、社交、娱乐等阿里巴巴集团重要业务,以及对生态合作伙伴输出赋能,实现阿里巴巴的“AI”(Alibaba Inside)的技术战略。
机器智能技术实验室核心技术能力
达摩院机器智能技术实验室的主要研究方向分为四个,即决策智能、图像视觉、语音交互以及自然语言处理。
作为一个专注于算法和基础技术研究的部门,达摩院机器智能技术实验室具有很多原创性技术和论文,并且在很多比赛中斩获无数大奖。
AI应用覆盖阿里巴巴经济体2000+场景
达摩院机器智能技术实验室的AI技术已经覆盖了阿里巴巴经济体的各个场景中,具体而言大概覆盖了2000多个场景,涵盖零售、家居、客服、驾驶、物流以及办公等场景。
当这些人工智能技术被阿里自己大规模应用之后其实只能做到如下图所示的第一个环,那就是有技术并且应用起来了。而现在,阿里巴巴希望将这些技术作为一个公开的产品提供给大众,提供给每一个希望用到AI技术的开发者,最终落到具体产业的场景里面来创造真正的商业价值。
阿里云AI产品家族
如今,阿里云已经将达摩院机器智能技术实验室所有的智能技术,如智能语音、NLP、知识图谱、人脸识别、机器翻译等技术开放给大家了。大家只需要登录ai.aliyun.com,就可以访问每个细分技术的每个场景了,官网上大约有适用于300多个场景的130多个产品。以上这些属于非常基础的能力,在阿里云,这些能力称之为原子能力。而想要为大家产生最终的商业价值,仅有原子能力还是远远不够的,因此需要弥补原子能力到商业价值之间的鸿沟。
AI.机器视觉
上述提到的原子能力其实已经被广泛地应用到了实际领域中了,以机器视觉为例,比如人脸识别能力、图像打标能力、场景分类能力等都已经被应用到了各种各样的场景中,并且调用量非常大。但是,最后如何将这些基础的能力在最终的行业实践中产生价值,其中却存在非常大的鸿沟。为了填补源自能力与商业价值两者之间的鸿沟,主要有两种方式,其中一种是阿里作为AI基础能力的提供者主动地向前走一步,为AI能力寻找到能够落地的场景,然后将AI能力与场景结合起来。这样做有两个好处,第一就是AI的算法和技术的价值最终还是需要依靠商业落地最终的产业实践来判断。第二就是AI技术进步的本身也是依靠产业实践来推动的,算法未来的发展方向取决于需求,此外AI技术大部分也都是数据密集型的,而数据的来源还是行业,只有当AI技术在行业中有大规模应用的时候,才能够拿到真实的数据来迭代AI模型,使得其准确率变得更高,模型本身也变得更好。
这里举一个比较具体的例子——OCR技术。OCR的中文含义就是光学实体识别,简单而言,就是对于一张图片上的文字读取出来。OCR是非常简单的技术,同时也非常古老的技术,在行业中已经存在了十几年甚至二十几年了。OCR技术作为一个基础的原子能力,其能够准确地识别整个图片中的每个字,但是识别出的字是否能够产生价值以及如何将字的识别做的更加准确和更好都是OCR技术目前面临的最大问题。
而阿里巴巴将OCR技术与行业进行了深度融合,比如与医疗行业中各种各样的单据、发票等进行识别。这样做有两个好处,第一个就是充分利用了这些行业的先验信息,使得AI算法针对这样的先验信息能够进行优化,使得准确率更高。第二个就是通过将字转录出来,使得文字成为结构化的信息,而这些结构化信息都是后续利用数据挖掘产生商业价值的基础。因此,无论是更高精度的识别率,还是结构化信息的解决方案都集中在读光识字的OCR解决方案中。而且针对于金融、医疗、司法、海关等一系列场景,阿里巴巴都提供了垂直类型的解决方案。
智能语音交互
如何使得AI原子能力能够再进一步,这里的例子是智能语音。在国内,阿里巴巴的语音合成等技术的水准或者效果都是最好的。一般的语音播报提供商会提供一个标准男声以及一个标准女声,而阿里巴巴做语音合成的思路则向着产业的场景又迈进了一步。阿里巴巴针对不同的场景,比如儿童读故事、客服等场景进行了专门优化和定制。而背后想要做到这样并不容易,必须要有很好的技术支持,才能够降低整体的成本和时间。除了语音合成之外,还有语音识别和语音交互能力,其中语音交互包含的场景有手机高德语音助手、天猫精灵、海尔以及康佳等语音助手等。而对于语音识别技术而言,目前也有了非常广泛的应用,仅在公有云上,语音识别的用户就有几千家,其中一个典型具体场景就是法庭的庭审语音识别,如今全中国已经有1万多家法庭已经安装了阿里的智能庭审系统。
将这样的智能语音交互技术应用到更加广泛的场景之中,也会遇到一些问题。智能语音技术应用到各种场景中所遇到的核心问题就是准确率,虽然到今天为止,我们的算力非常强悍,数据量非常大,比十年前可能要强上几个数量级,并且大家也不断宣称自己的语音识别率有多高。但是,实际上“现实很骨感”,当阿里将自己的语音识别技术应用到上千个合作伙伴那里的时候,当语音识别部署到全国上万个法庭的时候,就会发现现在的语音识别技术远远没有那么鲁棒。举两个具体的例子就是对于某个电力运营商的呼叫中心而言,如果语音识别技术没有针对于电力行业进行优化,可能准确率会迅速从95%降低到81%。而对于法律庭审而言,到了福建等南方城市,因为口音等原因也会使得识别率大打折扣。针对上述情景,解决方案只有一个,那就是针对于这些场景进行优化。
智能语音交互-自学习平台
那么,上述问题是否应该由阿里巴巴来全部解决呢?这就引出了本文所想要表述的第二个观点,那就是阿里巴巴希望提供一些基础能力来和合作伙伴一起将整个行业的应用效果做到最佳。因此,针对于智能语音交互,阿里巴巴提供了一整套的自学习平台。思路就是阿里巴巴将注意力集中在提供原子能力上面,专注于阿里巴巴所擅长的东西,去创造更好的算法,使得模型的能力变得更好。而如果确实遇到了在某些场景下,识别率降低的情况,阿里巴巴则提供了一套完整的流程工具,让合作伙伴自己进行针对性优化。这里也列举一些具体案例,在呼叫中心里面,合作伙伴可以使用自学习平台迅速进行声学或者语言上的优化,使得识别率从85%提升到了91%。而市面上的一些智能语音服务提供商认为自己能够包打天下,然而在千千万万种场景下,一种能力难以在每种场景下都做得非常好。而阿里巴巴选择将这些能力的“钥匙”交给合作伙伴,使得合作伙伴可以根据自身场景在成本允许的条件下进行无限的优化,这就使得合作伙伴拿着基础原子能力和自学习平台最终打造解决方案的时候能够比阿里云提供端到端的解决方案取得更高的准确率。此外,结合合作伙伴对于行业的洞察,使得最终用户能够享受到最佳的体验,进而帮助合作伙伴创造更多的价值,这一点也体现在阿里的客服合作伙伴联盟中。
NLP基础服务:让机器更懂你
在NLP部分,除了最基础的分词理解等技术之外,阿里巴巴还提供了搜索推荐、舆情、广告、司法、客服等服务。众所周知,对于自然语言处理而言,对于行业、领域更加敏感,因此阿里巴巴的NLP基础服务也推出了和智能语音交互同样的自学习平台,能够针对性地进行实体识别、分类等关键任务,使得合作伙伴能够在不太具备背景知识的情况下获取到行业数据,进而够将行业应用的效果做到最佳。
AI从未离开过计算基石
前面介绍了很多AI算法的相关场景,其实到最后,AI技术的进展还是需要依靠数据和计算的进展。达摩院机器智能技术实验室AI技术的背后还是阿里云坚实的计算基础,阿里云作为如今云计算领域全球的领导者,提供了最好的云计算技术,单集群能力可以支持10万台以上的机器,对于CPU和GPU的计算也提供了很好的支持。
阿里云机器学习平台PAI
到今天为止,除了上述提到的各种算法产品,阿里云机器学习的基石——PAI平台也作为阿里云的正式产品开放给大家。开发者除了能够拿到AI技术能力之外,如果对于最终的应用部署有所需求也可以来使用阿里云PAI平台。一方面,开发者可以用PAI平台来做最终的预测服务,另外一方面也可以用它来实现自学习的能力。
AI的三大核心助推器
本文的最开始为大家介绍了达摩院AI平台的能力,除此之外还为大家介绍了阿里云的AI计算能力,而到最后将这些基础的原子能力落地到产业中,产生真正的价值还是要依靠AI Inside同行者。阿里巴巴则希望将自己的工作范畴收缩在自己擅长的部分,比如更好的算法、更好的AI能力和更好的计算能力,具体到在各行各业的各种场景中,如何产生更好的价值,如何做的更好,各位合作伙伴更具有优势。因此,阿里巴巴希望结合自身和各位合作伙伴的能力,为终端用户产生实际的商业价值。阿里巴巴希望能够让每个企业都具有AI的能力,让对未来的各种美好期许依靠阿里巴巴和合作伙伴的共同努力一点点成为现实。