AI·OS新探索:端到端算法工程平台

简介: 本话题将围绕深度算法学习工程,详细介绍在淘宝搜索,推荐,广告业务的最佳实践,和大家详细阐述,阿里是如何构建一个高效的端到端AI算法平台。

特邀嘉宾:张迪--阿里巴巴集团资深技术专家
视频地址:https://yunqi.aliyun.com/2020/session54?liveId=44646

AI驱动淘宝搜索、推荐、广告技术的深入发展

今天你在淘宝上所看到的大量的内容,都已经是千人前面的个性化,其中搜索推荐广告业务作为核心的内容分发形态,在这其中发挥了重要的作用。在过去的5年,以深度学习技术为代表的AI技术成为搜索推荐广告业务突破的核心驱动力。深度学习的核心要素是算力、算法和数据,如何构建一个高效的端到端AI平台,直接决定了业务的天花板和迭代进化效率。
image.png

1.算力需求持续提升
在AI 算法越来越智能的背后,是对于算力需求的持续提升。
• 从算法视角来看,算法工程师希望可以像搭积木一样自由进行模型设计组装,并且快速进行效果验证,从而模型复杂度也越来越大,其中包含稀疏理解表征,持续行为刻画以及全连接网络的各种网络结构的负荷
• 从计算规模角度看,模型规模达到百亿特征,千亿参数,模型大小达到TB量级,对模型训练和在线模型预估都是巨大的挑战。
image.png

2.算法多样性的提升
算法多样性越来越高,标准的DNN模型以外,图声音网络、强化学习、基于树的深度学习等技术也在淘宝的业务中得到了广泛的应用。

• 图声音网络可以刻画用户和商品之间的连接,从而使用GraphEmbedding技术提升商品召回能力;
• 强化学习技术优化广告中的OCPC智能出价,从而使广告组的每一分钱花的更加精准;
• Tree-based Deep Match技术在广告召回功能,融入了更强大的模型刻画能力。

端到端的算法平台

算法的复杂度、多样性都越来越高,这一切都需要一个高效的端到端算法平台来保障。
1.3个维度的优化目标

AI算力的无限需求
持续的释放深度学习的算力,从而推高算法效果的天花板;
加速迭代效率
端到端的一致性体验,保障算法的全流程迭代效率;
赋能算法创新
平台设计要有足够高的灵活性,支持算法形态的持续创新;

2.AI·OS大数据深度学习工程技术体系
AI·OS作为大数据深度学习工程技术体系,发展至今包括AIOfflinePlatform(一站式建模平台)和AIOnlineServing(AI在线服务体系),在离线系统无缝链接,构成了端到端大数据AI智能引擎。目前支撑起海内外阿里电商全部的搜索、推荐、广告业务,时刻置身大数据主战场,引导成交占据集团电商大盘主体;此外,作为中台技术中坚,AI·OS已是包括电商、阿里云、优酷、菜鸟、盒马、钉钉等等在内全集团的基础设施,更为重要的是,AI·OS体系的云产品(开放搜索和智能推荐)矩阵通过阿里云服务于全球开发者。
image.png

3.工业级机器学习解决的问题
工业级机器学习解决的问题的复杂性不单是关注算法模型的代码的开发,而是一个涉及在离线闭环的,包括特征、样本,模型的全链路问题。
image.png

4.一站式建模平台
面向搜索、推荐、广告这样的场景,开发了一站式建模平台,提供包括特征管理,样本组装,模型训练与评估,模型交付的全链路端到端的能力。

一站式建模平台底层基于KubeFlow云原生底座,提供批量学习 (Batch)和流式学习(Online )的能力。
XFC提供标准化特征的管理和动向,Channel是样本计算的概念抽象,Model center是模型工厂部分提供的模型训练、模型共享、模型交付。
image.png

模型分析系统多维度模型可视化分析和模型安全性的校验,基于这些的逻辑抽象,算法工程师不需要关注底层系统的运行,只要编辑算法流程的逻辑描述,即可实现的算法流程的开发部署以及线上运维。在此基础上平台内建了统一的计算存储的血缘管理,基于此关系,以及算法逻辑描述的分析,平台有一套计算存储编辑优化层,可以自动的进行特征、样本、模型数据的共享和计算存储的优化。例如:当我们发现2组算法实验流程特征重合度很高时,我们的系统会自动合并两组特征计算和存储,大大提升整个平台的存储效率。
通过以上平台级赋能更多的业务创新可以实现更低的成本实现工程实施与效果验证,从而实现产品创意到算法,到工程的快速迭代循环。

批流一体的在线深度学习解决方案

随着对着业务时效性的追求越来越强,在线深度学习技术越来越重要。为此我们提供了批一体的在线深度学习解决方案,使得模型可以实时更新,业务则可以及时的捕捉用户的行为变化。

1.什么是批流一体
就是可以用一套算法逻辑描述既可以进行天级的批量学习,也可以进行在线实时学习,这样可以大幅减少算法流程开发的复杂度,还可以保障全量模型和实时模型之间的一致性。

• 基于Blink进行特征样本的实时计算,得益于Blink强大的计算能力,可以提供百万级QPS的流失样本的高可靠计算,基于XDL深度学习框架模型进行深度实时训练,同时可以提供高可靠的实时模型校验能力,最后把模型实时变化的更新成RTP在线模型服务,最快可以提供端到端的分钟级模型更新能力,在阿里的搜索、推荐、广告业务上发挥巨大作用,大幅度提升了系统时效性。

image.png

2.XDL:高维稀疏训练引擎
深度学习的算力的提升,主要提现了两个关键环节

  1. 深度模型训练的效率;
  2. 深度模型在线预估的效率;
    搜索推荐广告是高维稀疏的场景,特征规模和参数规模高达百亿、千亿量级,模型呈现既宽又深的特点,需要同时进行宽度计算优化和深度计算优化.

image.png

XDL是面向高维稀疏场景打造的分布式深度学习训练框架
• 进行大量的分布式模型优化,重新设计高性能的参数服务器,基于实时统计的动态参数放置策略,消除参数服务器的计算热点,同时实现优雅的分布式容灾策略,以便进行更高效的高并发训练。
• 在计算加速上,进行大量分布式计算图优化,包括高性能数据处理流水线,稀疏算子融合,参数交换的通信合并,极致的计算和通信的异步化等。一系列优化使得XDL可以支持数百亿特征,数千亿参数,千级数据平行的分部署式高维稀疏训练,优秀的自动分布式能力和自动流水线能力使得模型开发人员无需关心底层的细节,只需关注自身的模型开发逻辑即可;
• 在高层范式层面,XDL支持良好的结构化训练和流式训练能力,结构化训练是指利用搜索推荐广告场景下互联网样本结构化的特点,充分减少前项计算和后项计算,大幅提升训练效率。

3.RTP:分布式预估服务
RTP,作为AIOS提体系的分布式深度学习预估服务,将机器学习在线预测能力模块化提供了强大的模型应用编排能力,使得机器技术可以应用到搜索推荐广告在线服务的全链路中,包括召回,精排,重排以及摘要选取等各个环节。
RTP还可以提供分布式模型和分布式特征之间的全量一致性切换语义,也可以支持TB级别模型的在线服务。
• 深度模型的在线推理效率是至关重要的,需要在一定延迟约束下,进行大量深度学习的计算,为此在推理异构计算方面RTP集成了专门的异构推理计算加速引擎,可以同时支持FPG、CPU、GPU、阿里NPU等各种各样的异构硬件,为业务在深度学习领域提供了巨大的算力;
• 从离线训练的模型到在线预估模型,整个交付环节是也很重要,在这个过程中,需要对模型进行量化压缩,模型计算图改写逻辑,从而保证模型的在线推理逻辑的最大化。
image.png

总结

为了支持算法快速的迭代,淘宝构建了一套在离线闭环的端到端算法平台,使得算法解决方案可以在不同场景之间快速复制与迁移,针对核心的训练引擎和预估引擎,结合搜索推荐广告的高维稀疏的特点, 进行深入的场景优化,使得AI算法可以充分利用算力来推升算法效果的天花板。


以上就是本次云栖大会--“阿里是如何构建一个高效的端到端AI算法平台”的内容。如果您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流~


image.png

【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用https://free.aliyun.com/product/opensearch-free-trial

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
5月前
|
人工智能 运维 安全
|
5月前
|
人工智能 云栖大会
|
人工智能 自然语言处理 前端开发
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
淘宝推荐信息流业务,常年被“需求多、技术栈杂、协作慢”困扰,需求上线周期动辄一周。WaterFlow——一套 AI 驱动的端到端开发新实践,让部分需求两天内上线,甚至产品经理也能“自产自销”需求。短短数月,已落地 30+ 需求、自动生成 5.4 万行代码,大幅提升研发效率。接下来,我们将揭秘它是如何落地并改变协作模式的。
713 37
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
|
人工智能 缓存 NoSQL
【深度】企业 AI 落地实践(四):如何构建端到端的 AI 应用观测体系
本文探讨了AI应用在实际落地过程中面临的三大核心问题:如何高效使用AI模型、控制成本以及保障输出质量。文章详细分析了AI应用的典型架构,并提出通过全栈可观测体系实现从用户端到模型推理层的端到端监控与诊断。结合阿里云的实践经验,介绍了基于OpenTelemetry的Trace全链路追踪、关键性能指标(如TTFT、TPOT)采集、模型质量评估与MCP工具调用观测等技术手段,帮助企业在生产环境中实现AI应用的稳定、高效运行。同时,针对Dify等低代码平台的应用部署与优化提供了具体建议,助力企业构建可扩展、可观测的AI应用体系。
|
7月前
|
人工智能 算法 搜索推荐
电商API的“AI革命”:全球万亿市场如何被算法重新定义?
AI+电商API正引领智能商业变革,通过智能推荐、动态定价与自动化运营三大核心场景,大幅提升转化率、利润率与用户体验。2025年,75%电商API将具备个性化能力,90%业务实现智能决策,AI与API的深度融合将成为未来电商竞争的关键基石。
|
9月前
|
人工智能 搜索推荐 API
🚀 2小时极速开发!基于DeepSeek+智体OS的AI社交「头榜」震撼上线!
基于DeepSeek大模型与DTNS协议的革命性AI社交平台「头榜」震撼上线!仅需2小时极速开发,即可构建完整社交功能模块。平台具备智能社交网络、AI Agent生态、Prompt市场、AIGC创作等六大核心优势,支持低代码部署与个性化定制。开发者可快速接入DeepSeek API,体验去中心化架构与数据自主权。官网:[dtns.top](https://dtns.top),立即开启你的AI社交帝国!#AI社交 #DeepSeek #DTNS协议
317 4
|
5月前
|
人工智能 安全 架构师
开放、协同,2025 云栖大会“操作系统开源与 AI 进化分论坛”精彩回顾
唯有通过生态开放与技术共享,才能加速 AI 技术的普惠与产业化落地。

推荐镜像

更多