当搜索推荐遇到广告 - 三位一体的AI·OS技术新体系

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
推荐全链路深度定制开发平台,高级版 1个月
简介: AI·OS是由阿里巴巴搜索工程团队负责,集个性化搜索、推荐、广告三位一体的技术平台。本次分享来自该团队资深算法专家喜德,为大家带来这一年里,搜索工程体系在阿里巴巴内网及开源平台上的最新技术成果。

本文字数:2280
阅读时间:4~7分钟

您将获得:
1、阿里云AI·OS技术体系的核心价值
2、全面了解阿里云AI·OS技术体系架构
3、深度解析支持阿里云AI·OS技术体系的核心组件及业务场景实现方式

以下是正文


(本文内容来阿里巴巴资深技术专家喜德,在云栖大会推荐与搜索工程技术专场上的分享)

image.png


(喜德_阿里巴巴资深算法专家)

AI·OS是由阿里巴巴搜索工程团队负责,集个性化搜索、推荐、广告三位一体的技术平台。本次分享来自该团队资深算法专家喜德,为大家带来这一年里,搜索工程体系在阿里巴巴内网及开源平台上的最新技术成果。

AI·OS所面临的挑战

image.png

大家在使用手淘时会有三种页面是大家会经常碰到:1、搜索结果页;2、推荐业面;3、大促业面。如最近中秋节的活动,在中秋节主会场中,搜索与推荐的结果都是个性化的。这样大型的会场页面不仅需要涉及后台选品、广告投放、业面搭建,同时还要负责全流程深度学习训练以及预测体系,如果让你负责搭建这样一个促销页面,需要多少时间完成?有的人会觉得可能需要一个月的时间。实际情况是我们完成这样一个页面,只需要一个不懂技术的运营,最快10分钟,最慢15分钟,就可以搭建完成并上线,让用户看到。

image.png

除了淘宝之外阿里巴巴有不同的APP,每个APP都有搜索、推荐、促销、广告。这么多的业务如何让他们能够像手淘一样,拥有最快的算法迭代效率、最佳算法效果、最强性能,且在同一个引擎平台,用最少的人力支持。这就是搜索推荐工程体系要解决的问题。

AI·OS的平台价值及核心能力

image.png

这个问题在工业界很常见。现在生活中绝大多数人都有车且种类各异,如果汽车厂商运用垂直化的方式,从头到尾做,则不管是研发周期的长度,投入的人力、技术稳定时间,都是需要消耗大量资源且花费很长时间。而汽车工业界解决这个问题的方法,就是打造一个汽车平台,最有名就是大众的MQB平台,MQB平台对动力系统、操控系统这些汽车共有的部件进行沉淀,同时保留很强的可定制的能力。

image.png

那么回到搜索和推荐的业务上来,我们同样需要支持大量的业务端,其中包括阿里内网的业务、云上的业务,比如开放搜索、Elasticsearch、智能推荐;有效的支持这些业务则一定要有基础能力的沉淀,包括在线能力的沉淀,像召回、排序、分布式通信框架,高性能的索引结构,深度学习的训练、预测、数据处理的全流程、大量服务器的管理、离线数据处理能力、运维管控的能力以及给用户提供方便的插件定制能力。这些能力聚集到一起就是AI·OS平台的价值。

AI·OS架构解读

image.png

AI·OS底层部件是Hippo,一个兼容Kubernetes api的资源调度系统,在这个系统中,保障阿里内网在搜索推荐体系实现70%峰值利用率的情况下,在线业务不受任何影响。同时我们支持周均55%的平均CPU的利用率,这意味着,如果在线服务有峰谷,在线服务只有10%-20%CPU的使用率的情况下,结合离线混布做到平均55%的CPU利用率,可以节省一倍的机器,成本可以大幅降低。

在资源调度系统之上,我分为在线和离线两部分,而在线这部分我们可以分为五大核心引擎,通过这五个核心引擎可以组成不同的业务能力,比如做一个搜索系统,可以用图引擎做个性化信息的获取,用HA3搜索引擎做搜索召回,用深度学习的预测引擎做相关的算分和排序。而做推荐引擎,只需把搜索引擎换成推荐引擎就可以了,这样就可以组合出一个推荐业务,通过这种底层灵活的组件结合,可以保证快速业务的迭代,并保障非常好的性能。

XDL介绍:

在五大引擎之上,我们针对不同的业务特点,将搜索、推荐、广告运用在不同的运维系统和业务接入系统。离线部分,基于计算平台的四大技术组建构建我们的离线系统,包括深度学习PAI、数据分析处理平台MaxComputer、实时计算平台Blink、交互式分析平台Hologres。因为采用云上、云下一体化的结构,四大平台在阿里云上都可以看到。基于这四大平台,加上搜索、推荐、广告的商品特性,需要由我们自己深度学习的训练平台XDL。XDL主要解决的问题在搜索推荐广告商品的场景中,解决大规模分布式的训练和预测的问题,用XDL平台的核心原因,是因为商品的场景,和语音图象视频翻译之间的深度学习场景有很大不同,而不同点体现在商品场景中,有大量稀疏的特征,这意味着我们会有亿级别的特征,十亿级别的参数,百亿级别的样本,这个量级很大且稀疏,我们需要结合场景,做针对性的调整,这个调优与图像的场景不同的,这就促使我们必须有这样的平台。目前XDL处于开源状态。

image.png

我们在支持世界上最大的垂直商业搜索引擎时,数据的量级和业务规模决定了这是一个大规模高频触发处理平台,且支持分钟级实时学习。在深度训练场景中,训练越实时,用户的行为反馈就会越快,这也是商业场景中非常有特点的需求。在看到一个商品的时候,你会同时看到一批商品特性跟一般训练的组合的不同,会有结构性的特点,有利于我们提供针对性优化,对性能和存储带来提升。

Euler介绍:

image.png

在图学习细分领域,我们同样可以在商业场景中获得很好的效果,我们会有专门深度学习的子分支Euler,Euler是一个非深度部分的数据处理平台,主要针对搜索和推荐数据索引前需要用到的一些数据分析处理,以及分布式计算的业务逻辑。另外是端到端的深度学习、训练、预测一体化的系统算法平台,处理的是从样本的生成、训练,到模型的验证、分析,再到在线的上线切换、服务,一直到样本回流。通过这个系统,算法同学可以实现非常快的迭代速度。因为在深度学习迭代过程中,迭代越快,你的算法效果可以做的越好。在商业场景中,我们会有一些常用的图形算法,从游走类,如deepwork,到比较复杂的卷积类,如GCNGCT等,我们在Euler这个平台里面都给大家提供一个基础的实现能力,同时阿里内部在用的三种算法我们也同样进行了开源。大家可以通过上图二维码扫码了解。同时我们在图学习的底层提供了非常关键的组建--图引擎,我们内制的游走类和卷积类的算法,支持管理的接口,方便大家拓展算法,给自己的业务带来很好的效率提升。

基于这个AI·OS算法平台,我们不仅支持了阿里内部搜索推荐业务,同时也支持阿里广告业务、云上的Elasticsearch、开放搜索、智能推荐这些业务,所以是三位一体的引擎平台体系。

相关活动:

限时折扣截止--11/29

  1. 新购,首月75折
  2. 新购/续购/升级,预购6个月85折
  3. 新购/续购/升级,预购12个月8折

点击下方产品链接购买

开放搜索(Opensearch)
阿里巴巴自主研发的大规模分布式搜索引擎平台,其核心引擎HA3(问天3)系统为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过集成智能查询语义理解、机器学习排序算法等能力,旨在为企业提供高搜索质量的一站式内容智能搜索服务。
智能推荐(AIRec)
基于阿里巴巴领先的大数据和人工智能技术,结合在电商、内容、新闻、视频直播和社交等多个行业领域的积累,为全球企业及开发者提供个性化推荐服务

加入社区

点击 订阅《阿里云搜索与推荐技术交流期刊》,获取本片原文干货文稿!

如果你想与更多开发者交流随时交流、了解最前沿的搜索与推荐技术,可以扫码加入社群
TB10DYxkYY1gK0jSZTEXXXDQVXa-894-1075.jpg

相关实践学习
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
相关文章
|
10天前
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案
109 3
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
AI写作新时代:自然语言生成技术与写作助手的结合
AI写作新时代:自然语言生成技术与写作助手的结合
43 16
|
4天前
|
人工智能 测试技术 决策智能
玩转智能体魔方!清华推出AgentSquare模块化搜索框架,开启AI智能体高速进化时代
清华大学研究团队提出模块化LLM智能体搜索(MoLAS)框架AgentSquare,将LLM智能体设计抽象为规划、推理、工具使用和记忆四大模块,实现模块间的轻松组合与替换。通过模块进化和重组机制,AgentSquare显著提升了智能体的适应性和灵活性,并在多个基准测试中表现出色,平均性能提高17.2%。此外,该框架还具备可解释性,有助于深入理解智能体架构对任务性能的影响。论文地址:https://arxiv.org/abs/2410.06153
33 10
|
8天前
|
人工智能 关系型数据库 分布式数据库
PolarDB-PG AI最佳实践3 :PolarDB AI多模态相似性搜索最佳实践
本文介绍了如何利用PolarDB结合多模态大模型(如CLIP)实现数据库内的多模态数据分析和查询。通过POLAR_AI插件,可以直接在数据库中调用AI模型服务,无需移动数据或额外的工具,简化了多模态数据的处理流程。具体应用场景包括图像识别与分类、图像到文本检索和基于文本的图像检索。文章详细说明了技术实现、配置建议、实战步骤及多模态检索示例,展示了如何在PolarDB中创建模型、生成embedding并进行相似性检索
|
3天前
|
存储 人工智能 监控
AI视频监控技术在公租房管理中的应用:提升监管精准度与效率
该AI视频监控系统具备1080P高清与夜视能力,采用深度学习技术实现高精度人脸识别(误识率1%),并支持实时预警功能,响应时间小于5秒。系统支持私有化部署,保障数据隐私安全,适用于大规模公租房社区管理,可容纳10万以上人脸库。基于开源架构和Docker镜像,一键部署简单快捷,确保24小时稳定运行,并提供详细的后台数据分析报表,助力政府决策。
|
7天前
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案。
|
8天前
|
人工智能 供应链 安全
面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系
本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
师资研修|AI技术赋能教材建设和课程开发——乌鲁木齐某教育部门
近日,TsingtaoAI派出AI专家为乌鲁木齐中职院校的教师团队,举办“AI技术赋能教材建设与课程开发”的师资研修。此次培训由TsingtaoAI的AI专家高寒和教育专家刘建老师亲自授课,面对的是来自乌鲁木齐的教育工作者,特别是中职院校的教学骨干。整个活动不仅涉及人工智能技术本身的深度解析,还深入探讨了如何将这些前沿技术高效应用于教材和课程体系的创新。
39 0
|
13天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
150 97
|
3天前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
50 31