当搜索推荐遇到广告 - 三位一体的AI·OS技术新体系

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: AI·OS是由阿里巴巴搜索工程团队负责,集个性化搜索、推荐、广告三位一体的技术平台。本次分享来自该团队资深算法专家喜德,为大家带来这一年里,搜索工程体系在阿里巴巴内网及开源平台上的最新技术成果。

本文字数:2280
阅读时间:4~7分钟

您将获得:
1、阿里云AI·OS技术体系的核心价值
2、全面了解阿里云AI·OS技术体系架构
3、深度解析支持阿里云AI·OS技术体系的核心组件及业务场景实现方式

以下是正文


(本文内容来阿里巴巴资深技术专家喜德,在云栖大会推荐与搜索工程技术专场上的分享)

image.png


(喜德_阿里巴巴资深算法专家)

AI·OS是由阿里巴巴搜索工程团队负责,集个性化搜索、推荐、广告三位一体的技术平台。本次分享来自该团队资深算法专家喜德,为大家带来这一年里,搜索工程体系在阿里巴巴内网及开源平台上的最新技术成果。

AI·OS所面临的挑战

image.png

大家在使用手淘时会有三种页面是大家会经常碰到:1、搜索结果页;2、推荐业面;3、大促业面。如最近中秋节的活动,在中秋节主会场中,搜索与推荐的结果都是个性化的。这样大型的会场页面不仅需要涉及后台选品、广告投放、业面搭建,同时还要负责全流程深度学习训练以及预测体系,如果让你负责搭建这样一个促销页面,需要多少时间完成?有的人会觉得可能需要一个月的时间。实际情况是我们完成这样一个页面,只需要一个不懂技术的运营,最快10分钟,最慢15分钟,就可以搭建完成并上线,让用户看到。

image.png

除了淘宝之外阿里巴巴有不同的APP,每个APP都有搜索、推荐、促销、广告。这么多的业务如何让他们能够像手淘一样,拥有最快的算法迭代效率、最佳算法效果、最强性能,且在同一个引擎平台,用最少的人力支持。这就是搜索推荐工程体系要解决的问题。

AI·OS的平台价值及核心能力

image.png

这个问题在工业界很常见。现在生活中绝大多数人都有车且种类各异,如果汽车厂商运用垂直化的方式,从头到尾做,则不管是研发周期的长度,投入的人力、技术稳定时间,都是需要消耗大量资源且花费很长时间。而汽车工业界解决这个问题的方法,就是打造一个汽车平台,最有名就是大众的MQB平台,MQB平台对动力系统、操控系统这些汽车共有的部件进行沉淀,同时保留很强的可定制的能力。

image.png

那么回到搜索和推荐的业务上来,我们同样需要支持大量的业务端,其中包括阿里内网的业务、云上的业务,比如开放搜索、Elasticsearch、智能推荐;有效的支持这些业务则一定要有基础能力的沉淀,包括在线能力的沉淀,像召回、排序、分布式通信框架,高性能的索引结构,深度学习的训练、预测、数据处理的全流程、大量服务器的管理、离线数据处理能力、运维管控的能力以及给用户提供方便的插件定制能力。这些能力聚集到一起就是AI·OS平台的价值。

AI·OS架构解读

image.png

AI·OS底层部件是Hippo,一个兼容Kubernetes api的资源调度系统,在这个系统中,保障阿里内网在搜索推荐体系实现70%峰值利用率的情况下,在线业务不受任何影响。同时我们支持周均55%的平均CPU的利用率,这意味着,如果在线服务有峰谷,在线服务只有10%-20%CPU的使用率的情况下,结合离线混布做到平均55%的CPU利用率,可以节省一倍的机器,成本可以大幅降低。

在资源调度系统之上,我分为在线和离线两部分,而在线这部分我们可以分为五大核心引擎,通过这五个核心引擎可以组成不同的业务能力,比如做一个搜索系统,可以用图引擎做个性化信息的获取,用HA3搜索引擎做搜索召回,用深度学习的预测引擎做相关的算分和排序。而做推荐引擎,只需把搜索引擎换成推荐引擎就可以了,这样就可以组合出一个推荐业务,通过这种底层灵活的组件结合,可以保证快速业务的迭代,并保障非常好的性能。

XDL介绍:

在五大引擎之上,我们针对不同的业务特点,将搜索、推荐、广告运用在不同的运维系统和业务接入系统。离线部分,基于计算平台的四大技术组建构建我们的离线系统,包括深度学习PAI、数据分析处理平台MaxComputer、实时计算平台Blink、交互式分析平台Hologres。因为采用云上、云下一体化的结构,四大平台在阿里云上都可以看到。基于这四大平台,加上搜索、推荐、广告的商品特性,需要由我们自己深度学习的训练平台XDL。XDL主要解决的问题在搜索推荐广告商品的场景中,解决大规模分布式的训练和预测的问题,用XDL平台的核心原因,是因为商品的场景,和语音图象视频翻译之间的深度学习场景有很大不同,而不同点体现在商品场景中,有大量稀疏的特征,这意味着我们会有亿级别的特征,十亿级别的参数,百亿级别的样本,这个量级很大且稀疏,我们需要结合场景,做针对性的调整,这个调优与图像的场景不同的,这就促使我们必须有这样的平台。目前XDL处于开源状态。

image.png

我们在支持世界上最大的垂直商业搜索引擎时,数据的量级和业务规模决定了这是一个大规模高频触发处理平台,且支持分钟级实时学习。在深度训练场景中,训练越实时,用户的行为反馈就会越快,这也是商业场景中非常有特点的需求。在看到一个商品的时候,你会同时看到一批商品特性跟一般训练的组合的不同,会有结构性的特点,有利于我们提供针对性优化,对性能和存储带来提升。

Euler介绍:

image.png

在图学习细分领域,我们同样可以在商业场景中获得很好的效果,我们会有专门深度学习的子分支Euler,Euler是一个非深度部分的数据处理平台,主要针对搜索和推荐数据索引前需要用到的一些数据分析处理,以及分布式计算的业务逻辑。另外是端到端的深度学习、训练、预测一体化的系统算法平台,处理的是从样本的生成、训练,到模型的验证、分析,再到在线的上线切换、服务,一直到样本回流。通过这个系统,算法同学可以实现非常快的迭代速度。因为在深度学习迭代过程中,迭代越快,你的算法效果可以做的越好。在商业场景中,我们会有一些常用的图形算法,从游走类,如deepwork,到比较复杂的卷积类,如GCNGCT等,我们在Euler这个平台里面都给大家提供一个基础的实现能力,同时阿里内部在用的三种算法我们也同样进行了开源。大家可以通过上图二维码扫码了解。同时我们在图学习的底层提供了非常关键的组建--图引擎,我们内制的游走类和卷积类的算法,支持管理的接口,方便大家拓展算法,给自己的业务带来很好的效率提升。

基于这个AI·OS算法平台,我们不仅支持了阿里内部搜索推荐业务,同时也支持阿里广告业务、云上的Elasticsearch、开放搜索、智能推荐这些业务,所以是三位一体的引擎平台体系。

相关活动:

限时折扣截止--11/29

  1. 新购,首月75折
  2. 新购/续购/升级,预购6个月85折
  3. 新购/续购/升级,预购12个月8折

点击下方产品链接购买

开放搜索(Opensearch)
阿里巴巴自主研发的大规模分布式搜索引擎平台,其核心引擎HA3(问天3)系统为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过集成智能查询语义理解、机器学习排序算法等能力,旨在为企业提供高搜索质量的一站式内容智能搜索服务。
智能推荐(AIRec)
基于阿里巴巴领先的大数据和人工智能技术,结合在电商、内容、新闻、视频直播和社交等多个行业领域的积累,为全球企业及开发者提供个性化推荐服务

加入社区

点击 订阅《阿里云搜索与推荐技术交流期刊》,获取本片原文干货文稿!

如果你想与更多开发者交流随时交流、了解最前沿的搜索与推荐技术,可以扫码加入社群
TB10DYxkYY1gK0jSZTEXXXDQVXa-894-1075.jpg

相关实践学习
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
解密巴黎奥运会中的阿里云AI技术
2024年巴黎奥运会圆满结束,中国代表团金牌数与美国并列第一,展现了卓越实力。阿里云作为官方云服务合作伙伴,通过先进的AI技术深度融入奥运的各项环节,实现了大规模的云上转播,超越传统卫星转播,为全球观众提供流畅、高清的观赛体验。其中,“子弹时间”回放技术在多个场馆的应用,让观众享受到了电影般的多角度精彩瞬间。此外,8K超高清直播、AI智能解说和通义APP等创新,极大地提升了赛事观赏性和互动性。能耗宝(Energy Expert)的部署则助力实现了赛事的可持续发展目标。巴黎奥运会的成功举办标志着体育赛事正式进入AI时代,开启了体育与科技融合的新篇章。
解密巴黎奥运会中的阿里云AI技术
|
3天前
|
数据采集 存储 人工智能
利用AI技术改善数字化转型项目的九种方法
利用AI技术改善数字化转型项目的九种方法
|
5天前
|
人工智能 自然语言处理 API
动手实践:如何高效构建企业级AI搜索
本文介绍了基于阿里云 Elasticsearch的AI搜索产品能力、业务价值、场景应用,以及搭建演示等。
|
1天前
|
存储 人工智能 关系型数据库
使用 PostgreSQL pgvector 的 AI 应用程序中的多模态搜索
大型语言模型(LLM)的发展已拓展至多模态领域,不仅能处理文本,还能解析图像。本文介绍如何构建一个多模态搜索应用,用户可通过上传图片或输入文本来搜索印度菜谱。该应用支持多种LLM服务,如OpenAI及Ollama本地部署模型,并运用pgvector扩展在PostgreSQL中高效存储和检索向量嵌入。我们还展示了如何生成菜谱描述的嵌入并向数据库写入这些嵌入,以及如何通过API接口结合文本和图像查询来获取最相关的菜谱结果。此外,讨论了使用分布式SQL数据库如YugabyteDB增强应用的可扩展性和健壮性。
10 0
|
3天前
|
人工智能 Kubernetes 开发者
容器化技术在AI开发流程中的应用
【8月更文第17天】随着人工智能(AI)技术的快速发展,如何高效地开发、测试和部署AI模型成为了一个重要的课题。容器化技术,如Docker和Kubernetes,为解决这一问题提供了强大的工具。本文将探讨这些技术如何简化AI应用程序的开发流程,并提高模型的可移植性和可扩展性。
10 0
|
4天前
|
机器学习/深度学习 人工智能 编解码
2024通义语音AI技术图景,大模型引领AI再进化(3)
2024通义语音AI技术图景,大模型引领AI再进化
|
4天前
|
机器学习/深度学习 人工智能 算法
2024通义语音AI技术图景,大模型引领AI再进化(2)
2024通义语音AI技术图景,大模型引领AI再进化(2)
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
2024通义语音AI技术图景,大模型引领AI再进化(1)
2024通义语音AI技术图景,大模型引领AI再进化
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
|
5天前
|
Anolis 开发者
龙蜥操作系统产品问题之技术研发到产品落地的高效循环的促进如何解决
龙蜥操作系统产品问题之技术研发到产品落地的高效循环的促进如何解决
9 0