AI·OS新探索:端到端算法工程平台

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
推荐全链路深度定制开发平台,高级版 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 本话题将围绕深度算法学习工程,详细介绍在淘宝搜索,推荐,广告业务的最佳实践,和大家详细阐述,阿里是如何构建一个高效的端到端AI算法平台。

特邀嘉宾:张迪--阿里巴巴集团资深技术专家
视频地址:https://yunqi.aliyun.com/2020/session54?liveId=44646

AI驱动淘宝搜索、推荐、广告技术的深入发展

今天你在淘宝上所看到的大量的内容,都已经是千人前面的个性化,其中搜索推荐广告业务作为核心的内容分发形态,在这其中发挥了重要的作用。在过去的5年,以深度学习技术为代表的AI技术成为搜索推荐广告业务突破的核心驱动力。深度学习的核心要素是算力、算法和数据,如何构建一个高效的端到端AI平台,直接决定了业务的天花板和迭代进化效率。
image.png

1.算力需求持续提升
在AI 算法越来越智能的背后,是对于算力需求的持续提升。
• 从算法视角来看,算法工程师希望可以像搭积木一样自由进行模型设计组装,并且快速进行效果验证,从而模型复杂度也越来越大,其中包含稀疏理解表征,持续行为刻画以及全连接网络的各种网络结构的负荷
• 从计算规模角度看,模型规模达到百亿特征,千亿参数,模型大小达到TB量级,对模型训练和在线模型预估都是巨大的挑战。
image.png

2.算法多样性的提升
算法多样性越来越高,标准的DNN模型以外,图声音网络、强化学习、基于树的深度学习等技术也在淘宝的业务中得到了广泛的应用。

• 图声音网络可以刻画用户和商品之间的连接,从而使用GraphEmbedding技术提升商品召回能力;
• 强化学习技术优化广告中的OCPC智能出价,从而使广告组的每一分钱花的更加精准;
• Tree-based Deep Match技术在广告召回功能,融入了更强大的模型刻画能力。

端到端的算法平台

算法的复杂度、多样性都越来越高,这一切都需要一个高效的端到端算法平台来保障。
1.3个维度的优化目标

AI算力的无限需求
持续的释放深度学习的算力,从而推高算法效果的天花板;
加速迭代效率
端到端的一致性体验,保障算法的全流程迭代效率;
赋能算法创新
平台设计要有足够高的灵活性,支持算法形态的持续创新;

2.AI·OS大数据深度学习工程技术体系
AI·OS作为大数据深度学习工程技术体系,发展至今包括AIOfflinePlatform(一站式建模平台)和AIOnlineServing(AI在线服务体系),在离线系统无缝链接,构成了端到端大数据AI智能引擎。目前支撑起海内外阿里电商全部的搜索、推荐、广告业务,时刻置身大数据主战场,引导成交占据集团电商大盘主体;此外,作为中台技术中坚,AI·OS已是包括电商、阿里云、优酷、菜鸟、盒马、钉钉等等在内全集团的基础设施,更为重要的是,AI·OS体系的云产品(开放搜索和智能推荐)矩阵通过阿里云服务于全球开发者。
image.png

3.工业级机器学习解决的问题
工业级机器学习解决的问题的复杂性不单是关注算法模型的代码的开发,而是一个涉及在离线闭环的,包括特征、样本,模型的全链路问题。
image.png

4.一站式建模平台
面向搜索、推荐、广告这样的场景,开发了一站式建模平台,提供包括特征管理,样本组装,模型训练与评估,模型交付的全链路端到端的能力。

一站式建模平台底层基于KubeFlow云原生底座,提供批量学习 (Batch)和流式学习(Online )的能力。
XFC提供标准化特征的管理和动向,Channel是样本计算的概念抽象,Model center是模型工厂部分提供的模型训练、模型共享、模型交付。
image.png

模型分析系统多维度模型可视化分析和模型安全性的校验,基于这些的逻辑抽象,算法工程师不需要关注底层系统的运行,只要编辑算法流程的逻辑描述,即可实现的算法流程的开发部署以及线上运维。在此基础上平台内建了统一的计算存储的血缘管理,基于此关系,以及算法逻辑描述的分析,平台有一套计算存储编辑优化层,可以自动的进行特征、样本、模型数据的共享和计算存储的优化。例如:当我们发现2组算法实验流程特征重合度很高时,我们的系统会自动合并两组特征计算和存储,大大提升整个平台的存储效率。
通过以上平台级赋能更多的业务创新可以实现更低的成本实现工程实施与效果验证,从而实现产品创意到算法,到工程的快速迭代循环。

批流一体的在线深度学习解决方案

随着对着业务时效性的追求越来越强,在线深度学习技术越来越重要。为此我们提供了批一体的在线深度学习解决方案,使得模型可以实时更新,业务则可以及时的捕捉用户的行为变化。

1.什么是批流一体
就是可以用一套算法逻辑描述既可以进行天级的批量学习,也可以进行在线实时学习,这样可以大幅减少算法流程开发的复杂度,还可以保障全量模型和实时模型之间的一致性。

• 基于Blink进行特征样本的实时计算,得益于Blink强大的计算能力,可以提供百万级QPS的流失样本的高可靠计算,基于XDL深度学习框架模型进行深度实时训练,同时可以提供高可靠的实时模型校验能力,最后把模型实时变化的更新成RTP在线模型服务,最快可以提供端到端的分钟级模型更新能力,在阿里的搜索、推荐、广告业务上发挥巨大作用,大幅度提升了系统时效性。

image.png

2.XDL:高维稀疏训练引擎
深度学习的算力的提升,主要提现了两个关键环节

  1. 深度模型训练的效率;
  2. 深度模型在线预估的效率;
    搜索推荐广告是高维稀疏的场景,特征规模和参数规模高达百亿、千亿量级,模型呈现既宽又深的特点,需要同时进行宽度计算优化和深度计算优化.

image.png

XDL是面向高维稀疏场景打造的分布式深度学习训练框架
• 进行大量的分布式模型优化,重新设计高性能的参数服务器,基于实时统计的动态参数放置策略,消除参数服务器的计算热点,同时实现优雅的分布式容灾策略,以便进行更高效的高并发训练。
• 在计算加速上,进行大量分布式计算图优化,包括高性能数据处理流水线,稀疏算子融合,参数交换的通信合并,极致的计算和通信的异步化等。一系列优化使得XDL可以支持数百亿特征,数千亿参数,千级数据平行的分部署式高维稀疏训练,优秀的自动分布式能力和自动流水线能力使得模型开发人员无需关心底层的细节,只需关注自身的模型开发逻辑即可;
• 在高层范式层面,XDL支持良好的结构化训练和流式训练能力,结构化训练是指利用搜索推荐广告场景下互联网样本结构化的特点,充分减少前项计算和后项计算,大幅提升训练效率。

3.RTP:分布式预估服务
RTP,作为AIOS提体系的分布式深度学习预估服务,将机器学习在线预测能力模块化提供了强大的模型应用编排能力,使得机器技术可以应用到搜索推荐广告在线服务的全链路中,包括召回,精排,重排以及摘要选取等各个环节。
RTP还可以提供分布式模型和分布式特征之间的全量一致性切换语义,也可以支持TB级别模型的在线服务。
• 深度模型的在线推理效率是至关重要的,需要在一定延迟约束下,进行大量深度学习的计算,为此在推理异构计算方面RTP集成了专门的异构推理计算加速引擎,可以同时支持FPG、CPU、GPU、阿里NPU等各种各样的异构硬件,为业务在深度学习领域提供了巨大的算力;
• 从离线训练的模型到在线预估模型,整个交付环节是也很重要,在这个过程中,需要对模型进行量化压缩,模型计算图改写逻辑,从而保证模型的在线推理逻辑的最大化。
image.png

总结

为了支持算法快速的迭代,淘宝构建了一套在离线闭环的端到端算法平台,使得算法解决方案可以在不同场景之间快速复制与迁移,针对核心的训练引擎和预估引擎,结合搜索推荐广告的高维稀疏的特点, 进行深入的场景优化,使得AI算法可以充分利用算力来推升算法效果的天花板。


以上就是本次云栖大会--“阿里是如何构建一个高效的端到端AI算法平台”的内容。如果您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流~


image.png

【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用https://free.aliyun.com/product/opensearch-free-trial

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
24天前
|
传感器 人工智能 监控
智慧工地 AI 算法方案
智慧工地AI算法方案通过集成多种AI算法,实现对工地现场的全方位安全监控、精准质量检测和智能进度管理。该方案涵盖平台层、展现层与应用层、基础层,利用AI技术提升工地管理的效率和安全性,减少人工巡检成本,提高施工质量和进度管理的准确性。方案具备算法精准高效、系统集成度高、可扩展性强和成本效益显著等优势,适用于人员安全管理、施工质量监控和施工进度管理等多个场景。
|
9天前
|
机器学习/深度学习 缓存 人工智能
【AI系统】QNNPack 算法
QNNPACK是Marat Dukhan开发的量化神经网络计算加速库,专为移动端优化,性能卓越。本文介绍QNNPACK的实现,包括间接卷积算法、内存重排和间接缓冲区等关键技术,有效解决了传统Im2Col+GEMM方法存在的空间消耗大、缓存效率低等问题,显著提升了量化神经网络的计算效率。
22 6
【AI系统】QNNPack 算法
|
9天前
|
存储 人工智能 缓存
【AI系统】Im2Col 算法
Caffe 作为早期的 AI 框架,采用 Im2Col 方法优化卷积计算。Im2Col 将卷积操作转换为矩阵乘法,通过将输入数据重排为连续内存中的矩阵,减少内存访问次数,提高计算效率。该方法首先将输入图像转换为矩阵,然后利用 GEMM 库加速计算,最后将结果转换回原格式。这种方式显著提升了卷积计算的速度,尤其适用于通道数较多的卷积层。
21 5
【AI系统】Im2Col 算法
|
10天前
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
87 30
|
12天前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
65 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
|
9天前
|
存储 机器学习/深度学习 人工智能
【AI系统】Winograd 算法
本文详细介绍Winograd优化算法,该算法通过增加加法操作来减少乘法操作,从而加速卷积计算。文章首先回顾Im2Col技术和空间组合优化,然后深入讲解Winograd算法原理及其在一维和二维卷积中的应用,最后讨论算法的局限性和实现步骤。Winograd算法在特定卷积参数下表现优异,但其应用范围受限。
19 2
【AI系统】Winograd 算法
|
24天前
|
机器学习/深度学习 传感器 人工智能
智慧无人机AI算法方案
智慧无人机AI算法方案通过集成先进的AI技术和多传感器融合,实现了无人机的自主飞行、智能避障、高效数据处理及多机协同作业,显著提升了无人机在复杂环境下的作业能力和安全性。该方案广泛应用于航拍测绘、巡检监测、应急救援和物流配送等领域,能够有效降低人工成本,提高任务执行效率和数据处理速度。
智慧无人机AI算法方案
|
13天前
|
存储 人工智能 缓存
【AI系统】布局转换原理与算法
数据布局转换技术通过优化内存中数据的排布,提升程序执行效率,特别是对于缓存性能的影响显著。本文介绍了数据在内存中的排布方式,包括内存对齐、大小端存储等概念,并详细探讨了张量数据在内存中的排布,如行优先与列优先排布,以及在深度学习中常见的NCHW与NHWC两种数据布局方式。这些布局方式的选择直接影响到程序的性能,尤其是在GPU和CPU上的表现。此外,还讨论了连续与非连续张量的概念及其对性能的影响。
34 3
|
13天前
|
机器学习/深度学习 人工智能 算法
【AI系统】内存分配算法
本文探讨了AI编译器前端优化中的内存分配问题,涵盖模型与硬件内存的发展、内存划分及其优化算法。文章首先分析了神经网络模型对NPU内存需求的增长趋势,随后详细介绍了静态与动态内存的概念及其实现方式,最后重点讨论了几种节省内存的算法,如空间换内存、计算换内存、模型压缩和内存复用等,旨在提高内存使用效率,减少碎片化,提升模型训练和推理的性能。
31 1
|
21天前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
37 6