来源 阿里语音AI 公众号
“「人工智能」已经成为了大家耳熟能详的词汇。如今,AI不再只是「能够在围棋比赛中战胜世界冠军」的技术了,人们对于它有了更多的期许。而在AI技术和产业落地产生的商业价值之间存在着必然的鸿沟,如何弥补这一鸿沟,为AI技术的终端用户产生真正的价值?本文中,达摩院机器智能实验室资深算法专家高杰将为大家分享他的观点。”
于2019年12月19日在杭州西溪园区访客接待中心举办的「AI Inside,阿里云智能 - 达摩院AI同行者大会」中,达摩院语音实验室资深算法专家:高杰,作为演讲嘉宾从技术角度为大家分享阿里云智能达摩院能够为大家提供的AI产品矩阵。
以下内容根据高杰的现场演讲内容和ppt整理而成:
近年来,“人工智能”一词可以说是非常火热。而就在两三年前,大家对于AI的认知还只是“AI是一个先进的技术,它可以在下围棋这件事情上超过世界冠军。”但是如今,AI已经成了一个技术浪潮,甚至是一个社会潮流,这也体现了整个社会对于AI技术的高期望。而对于阿里巴巴而言,对于AI的探索要更加脚踏实地一些,因此阿里所关注的也是AI如何与当前人类社会的各种生产活动产生互动和生产价值的场景应用,并且也做了各种各样的尝试。
达摩院:以科技,创新世界
在正式介绍阿里云智能达摩院AI产品之前,先为大家介绍阿里达摩院人工智能实验室。阿里达摩院于2017年10月11日正式成立,定位于应用驱动的基础科学和创新技术研究。
达摩院的研究领域简单而言就是“4+X”,这里的“4”包括了机器智能、数据计算、机器人以及金融科技,“X”指的是X实验室。如今,达摩院已经成为了一个全球化的研究机构,达摩院的300多位研究人员分布在全球4个国家的7座城市中。
作为一个专注于算法和基础技术研究的部门,达摩院机器智能技术实验室具有很多原创性技术和论文,并且在很多比赛中斩获无数大奖。
达摩院机器智能技术实验室的AI技术已经覆盖了阿里巴巴经济体的各个场景中,具体而言大概覆盖了2000多个场景,涵盖零售、家居、客服、驾驶、物流以及办公等场景。
阿里云AI产品家族
如今,阿里云已经将达摩院机器智能技术实验室所有的智能技术,如智能语音、NLP、知识图谱、人脸识别、机器翻译等技术开放给大家了。大家只需要登录ai.aliyun.com,就可以访问每个细分技术的每个场景了,官网上大约有适用于300多个场景的130多个产品。以上这些属于非常基础的能力,在阿里云,这些能力称之为原子能力。而想要为大家产生最终的商业价值,仅有原子能力还是远远不够的,因此需要弥补原子能力到商业价值之间的鸿沟。
AI.机器视觉
上述提到的原子能力服务其实已经被广泛地应用到了实际领域中了,以机器视觉为例,比如人脸识别能力、图像打标能力、场景分类能力等都已经被应用到了各种各样的场景中,并且调用量非常大。但是,最后如何将这些基础的能力在最终的行业实践中产生价值,其中却存在非常大的鸿沟。为了填补源自能力与商业价值两者之间的鸿沟,主要有两种方式,其中一种是阿里作为AI基础能力的提供者主动地向前走一步,为AI能力寻找到能够落地的场景,然后将AI能力与场景结合起来。这样做有两个好处,第一就是AI的算法和技术的价值最终还是需要依靠商业落地最终的产业实践来判断。第二就是AI技术进步的本身也是依靠产业实践来推动的,算法未来的发展方向取决于需求,此外AI技术大部分也都是数据密集型的,而数据的来源还是行业,只有当AI技术在行业中有大规模应用的时候,才能够拿到真实的数据来迭代AI模型,使得其准确率变得更高,模型本身也变得更好。
智能语音交互
如何使得AI能力能够再进一步,这里的例子是智能语音。在国内,阿里巴巴的语音合成等技术的水准或者效果都是最好的。一般的语音播报提供商会提供一个标准男声以及一个标准女声,而阿里巴巴做语音合成的思路则向着产业的场景又迈进了一步。阿里巴巴针对不同的场景,比如儿童读故事、客服等场景进行了专门优化和定制。而背后想要做到这样并不容易,必须要有很好的技术支持,才能够降低整体的成本和时间。除了语音合成之外,还有语音识别和语音交互能力,其中语音交互包含的场景有手机高德语音助手、天猫精灵、海尔以及康佳等语音助手等。而对于语音识别技术而言,目前也有了非常广泛的应用,仅在公有云上,语音识别的用户就有几千家,其中一个典型具体场景就是法庭的庭审语音识别,如今全中国已经有1万多家法庭已经安装了阿里的智能庭审系统。
将这样的智能语音交互技术应用到更加广泛的场景之中,也会遇到一些问题。智能语音技术应用到各种场景中所遇到的核心问题就是准确率,当阿里将自己的语音识别技术应用到上千个合作伙伴那里的时候,当语音识别部署到全国上万个法庭的时候,就会发现现在的语音识别技术远远没有那么鲁棒。解决方案只有一个,那就是针对于这些场景进行优化。
智能语音交互-自学习平台
那么,上述问题是否应该由阿里巴巴来全部解决呢?这就引出了本文所想要表述的第二个观点,那就是阿里巴巴希望提供一些基础能力来和合作伙伴一起将整个行业的应用效果做到最佳。因此,针对于智能语音交互,阿里巴巴提供了一整套的自学习平台。思路就是阿里巴巴将注意力集中在提供原子能力服务上面,专注于阿里巴巴所擅长的东西,去创造更好的算法,使得模型的能力变得更好。而如果确实遇到了在某些场景下,识别率降低的情况,阿里巴巴则提供了一套完整的流程工具,让合作伙伴自己进行针对性优化。
这里也列举一些具体案例,在呼叫中心里面,合作伙伴可以使用自学习平台迅速进行声学或者语言上的优化,使得识别率从85%提升到了91%。阿里巴巴选择将这些能力的“钥匙”交给合作伙伴,使得合作伙伴可以根据自身场景在成本允许的条件下进行无限的优化,这就使得合作伙伴拿着原子能力和自学习平台最终打造解决方案的时候能够比阿里云提供端到端的解决方案取得更高的准确率。
此外,结合合作伙伴对于行业的洞察,使得最终用户能够享受到最佳的体验,进而帮助合作伙伴创造更多的价值,这一点也体现在阿里的客服合作伙伴联盟中。
NLP基础服务:让机器更懂你
在NLP部分,除了最基础的分词理解等技术之外,阿里巴巴还提供了搜索推荐、舆情、广告、司法、客服等服务。众所周知,对于自然语言处理而言,对于行业、领域更加敏感,因此阿里巴巴的NLP基础服务也推出了和智能语音交互同样的自学习平台,能够针对性地进行实体识别、分类等关键任务,使得合作伙伴能够在不太具备背景知识的情况下获取到行业数据,进而够将行业应用的效果做到最佳。
阿里云机器学习平台PAI
到今天为止,除了上述提到的各种算法产品,阿里云机器学习的基石——PAI平台也作为阿里云的正式产品开放给大家。开发者除了能够拿到AI技术能力之外,如果对于最终的应用部署有所需求也可以来使用阿里云PAI平台。一方面,开发者可以用PAI平台来做最终的预测服务,另外一方面也可以用它来实现自学习的能力。
AI的三大核心助推器
本文的最开始为大家介绍了达摩院AI平台的能力,除此之外还为大家介绍了阿里云的AI计算能力,而到最后将这些基础的原子能力落地到产业中,产生真正的价值还是要依靠AIInside同行者。阿里巴巴则希望将自己的工作范畴收缩在自己擅长的部分,比如更好的算法、更好的AI能力和更好的计算能力,具体到在各行各业的各种场景中,如何产生更好的价值,如何做的更好,各位合作伙伴更具有优势。因此,阿里巴巴希望结合自身和各位合作伙伴的能力,为终端用户产生实际的商业价值。阿里巴巴希望能够让每个企业都具有AI的能力,让对未来的各种美好期许依靠阿里巴巴和合作伙伴的共同努力一点点成为现实。