本文字数:2280
阅读时间:4~7分钟
您将获得:
1、阿里云AI·OS技术体系的核心价值
2、全面了解阿里云AI·OS技术体系架构
3、深度解析支持阿里云AI·OS技术体系的核心组件及业务场景实现方式
以下是正文
(本文内容来阿里巴巴资深技术专家喜德,在云栖大会推荐与搜索工程技术专场上的分享)
(喜德_阿里巴巴资深算法专家)
AI·OS是由阿里巴巴搜索工程团队负责,集个性化搜索、推荐、广告三位一体的技术平台。本次分享来自该团队资深算法专家喜德,为大家带来这一年里,搜索工程体系在阿里巴巴内网及开源平台上的最新技术成果。
AI·OS所面临的挑战
大家在使用手淘时会有三种页面是大家会经常碰到:1、搜索结果页;2、推荐业面;3、大促业面。如最近中秋节的活动,在中秋节主会场中,搜索与推荐的结果都是个性化的。这样大型的会场页面不仅需要涉及后台选品、广告投放、业面搭建,同时还要负责全流程深度学习训练以及预测体系,如果让你负责搭建这样一个促销页面,需要多少时间完成?有的人会觉得可能需要一个月的时间。实际情况是我们完成这样一个页面,只需要一个不懂技术的运营,最快10分钟,最慢15分钟,就可以搭建完成并上线,让用户看到。
除了淘宝之外阿里巴巴有不同的APP,每个APP都有搜索、推荐、促销、广告。这么多的业务如何让他们能够像手淘一样,拥有最快的算法迭代效率、最佳算法效果、最强性能,且在同一个引擎平台,用最少的人力支持。这就是搜索推荐工程体系要解决的问题。
AI·OS的平台价值及核心能力
这个问题在工业界很常见。现在生活中绝大多数人都有车且种类各异,如果汽车厂商运用垂直化的方式,从头到尾做,则不管是研发周期的长度,投入的人力、技术稳定时间,都是需要消耗大量资源且花费很长时间。而汽车工业界解决这个问题的方法,就是打造一个汽车平台,最有名就是大众的MQB平台,MQB平台对动力系统、操控系统这些汽车共有的部件进行沉淀,同时保留很强的可定制的能力。
那么回到搜索和推荐的业务上来,我们同样需要支持大量的业务端,其中包括阿里内网的业务、云上的业务,比如开放搜索、Elasticsearch、智能推荐;有效的支持这些业务则一定要有基础能力的沉淀,包括在线能力的沉淀,像召回、排序、分布式通信框架,高性能的索引结构,深度学习的训练、预测、数据处理的全流程、大量服务器的管理、离线数据处理能力、运维管控的能力以及给用户提供方便的插件定制能力。这些能力聚集到一起就是AI·OS平台的价值。
AI·OS架构解读
AI·OS底层部件是Hippo,一个兼容Kubernetes api的资源调度系统,在这个系统中,保障阿里内网在搜索推荐体系实现70%峰值利用率的情况下,在线业务不受任何影响。同时我们支持周均55%的平均CPU的利用率,这意味着,如果在线服务有峰谷,在线服务只有10%-20%CPU的使用率的情况下,结合离线混布做到平均55%的CPU利用率,可以节省一倍的机器,成本可以大幅降低。
在资源调度系统之上,我分为在线和离线两部分,而在线这部分我们可以分为五大核心引擎,通过这五个核心引擎可以组成不同的业务能力,比如做一个搜索系统,可以用图引擎做个性化信息的获取,用HA3搜索引擎做搜索召回,用深度学习的预测引擎做相关的算分和排序。而做推荐引擎,只需把搜索引擎换成推荐引擎就可以了,这样就可以组合出一个推荐业务,通过这种底层灵活的组件结合,可以保证快速业务的迭代,并保障非常好的性能。
XDL介绍:
在五大引擎之上,我们针对不同的业务特点,将搜索、推荐、广告运用在不同的运维系统和业务接入系统。离线部分,基于计算平台的四大技术组建构建我们的离线系统,包括深度学习PAI、数据分析处理平台MaxComputer、实时计算平台Blink、交互式分析平台Hologres。因为采用云上、云下一体化的结构,四大平台在阿里云上都可以看到。基于这四大平台,加上搜索、推荐、广告的商品特性,需要由我们自己深度学习的训练平台XDL。XDL主要解决的问题在搜索推荐广告商品的场景中,解决大规模分布式的训练和预测的问题,用XDL平台的核心原因,是因为商品的场景,和语音图象视频翻译之间的深度学习场景有很大不同,而不同点体现在商品场景中,有大量稀疏的特征,这意味着我们会有亿级别的特征,十亿级别的参数,百亿级别的样本,这个量级很大且稀疏,我们需要结合场景,做针对性的调整,这个调优与图像的场景不同的,这就促使我们必须有这样的平台。目前XDL处于开源状态。
我们在支持世界上最大的垂直商业搜索引擎时,数据的量级和业务规模决定了这是一个大规模高频触发处理平台,且支持分钟级实时学习。在深度训练场景中,训练越实时,用户的行为反馈就会越快,这也是商业场景中非常有特点的需求。在看到一个商品的时候,你会同时看到一批商品特性跟一般训练的组合的不同,会有结构性的特点,有利于我们提供针对性优化,对性能和存储带来提升。
Euler介绍:
在图学习细分领域,我们同样可以在商业场景中获得很好的效果,我们会有专门深度学习的子分支Euler,Euler是一个非深度部分的数据处理平台,主要针对搜索和推荐数据索引前需要用到的一些数据分析处理,以及分布式计算的业务逻辑。另外是端到端的深度学习、训练、预测一体化的系统算法平台,处理的是从样本的生成、训练,到模型的验证、分析,再到在线的上线切换、服务,一直到样本回流。通过这个系统,算法同学可以实现非常快的迭代速度。因为在深度学习迭代过程中,迭代越快,你的算法效果可以做的越好。在商业场景中,我们会有一些常用的图形算法,从游走类,如deepwork,到比较复杂的卷积类,如GCNGCT等,我们在Euler这个平台里面都给大家提供一个基础的实现能力,同时阿里内部在用的三种算法我们也同样进行了开源。大家可以通过上图二维码扫码了解。同时我们在图学习的底层提供了非常关键的组建--图引擎,我们内制的游走类和卷积类的算法,支持管理的接口,方便大家拓展算法,给自己的业务带来很好的效率提升。
基于这个AI·OS算法平台,我们不仅支持了阿里内部搜索推荐业务,同时也支持阿里广告业务、云上的Elasticsearch、开放搜索、智能推荐这些业务,所以是三位一体的引擎平台体系。
相关活动:
限时折扣截止--11/29
- 新购,首月75折
- 新购/续购/升级,预购6个月85折
- 新购/续购/升级,预购12个月8折
点击下方产品链接购买
开放搜索(Opensearch)
阿里巴巴自主研发的大规模分布式搜索引擎平台,其核心引擎HA3(问天3)系统为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过集成智能查询语义理解、机器学习排序算法等能力,旨在为企业提供高搜索质量的一站式内容智能搜索服务。
智能推荐(AIRec)
基于阿里巴巴领先的大数据和人工智能技术,结合在电商、内容、新闻、视频直播和社交等多个行业领域的积累,为全球企业及开发者提供个性化推荐服务
加入社区
点击 订阅《阿里云搜索与推荐技术交流期刊》,获取本片原文干货文稿!
如果你想与更多开发者交流随时交流、了解最前沿的搜索与推荐技术,可以扫码加入社群