AI·OS新探索：端到端算法工程平台

2020-09-28 18526

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

推荐全链路深度定制开发平台，高级版 1个月

OpenSearch LLM智能问答版免费试用套餐，存储1GB首月+计算资源100CU

简介： 本话题将围绕深度算法学习工程，详细介绍在淘宝搜索，推荐，广告业务的最佳实践，和大家详细阐述，阿里是如何构建一个高效的端到端AI算法平台。

特邀嘉宾：张迪--阿里巴巴集团资深技术专家
视频地址:https://yunqi.aliyun.com/2020/session54?liveId=44646

AI驱动淘宝搜索、推荐、广告技术的深入发展

今天你在淘宝上所看到的大量的内容，都已经是千人前面的个性化，其中搜索推荐广告业务作为核心的内容分发形态，在这其中发挥了重要的作用。在过去的5年，以深度学习技术为代表的AI技术成为搜索推荐广告业务突破的核心驱动力。深度学习的核心要素是算力、算法和数据，如何构建一个高效的端到端AI平台，直接决定了业务的天花板和迭代进化效率。

1.算力需求持续提升
在AI 算法越来越智能的背后，是对于算力需求的持续提升。
• 从算法视角来看，算法工程师希望可以像搭积木一样自由进行模型设计组装，并且快速进行效果验证，从而模型复杂度也越来越大，其中包含稀疏理解表征，持续行为刻画以及全连接网络的各种网络结构的负荷 。
• 从计算规模角度看，模型规模达到百亿特征，千亿参数，模型大小达到TB量级，对模型训练和在线模型预估都是巨大的挑战。

2.算法多样性的提升
算法多样性越来越高，标准的DNN模型以外，图声音网络、强化学习、基于树的深度学习等技术也在淘宝的业务中得到了广泛的应用。

• 图声音网络可以刻画用户和商品之间的连接，从而使用GraphEmbedding技术提升商品召回能力；
• 强化学习技术优化广告中的OCPC智能出价，从而使广告组的每一分钱花的更加精准；
• Tree-based Deep Match技术在广告召回功能，融入了更强大的模型刻画能力。

端到端的算法平台

算法的复杂度、多样性都越来越高，这一切都需要一个高效的端到端算法平台来保障。
1.3个维度的优化目标

AI算力的无限需求
持续的释放深度学习的算力，从而推高算法效果的天花板；
加速迭代效率
端到端的一致性体验，保障算法的全流程迭代效率；
赋能算法创新
平台设计要有足够高的灵活性，支持算法形态的持续创新；

2.AI·OS大数据深度学习工程技术体系
AI·OS作为大数据深度学习工程技术体系，发展至今包括AIOfflinePlatform（一站式建模平台）和AIOnlineServing（AI在线服务体系），在离线系统无缝链接，构成了端到端大数据AI智能引擎。目前支撑起海内外阿里电商全部的搜索、推荐、广告业务，时刻置身大数据主战场，引导成交占据集团电商大盘主体；此外，作为中台技术中坚，AI·OS已是包括电商、阿里云、优酷、菜鸟、盒马、钉钉等等在内全集团的基础设施，更为重要的是，AI·OS体系的云产品（开放搜索和智能推荐）矩阵通过阿里云服务于全球开发者。

3.工业级机器学习解决的问题
工业级机器学习解决的问题的复杂性不单是关注算法模型的代码的开发，而是一个涉及在离线闭环的，包括特征、样本，模型的全链路问题。

4.一站式建模平台
面向搜索、推荐、广告这样的场景，开发了一站式建模平台，提供包括特征管理，样本组装，模型训练与评估，模型交付的全链路端到端的能力。

一站式建模平台底层基于KubeFlow云原生底座，提供批量学习（Batch）和流式学习（Online ）的能力。
XFC提供标准化特征的管理和动向，Channel是样本计算的概念抽象，Model center是模型工厂部分提供的模型训练、模型共享、模型交付。

模型分析系统多维度模型可视化分析和模型安全性的校验，基于这些的逻辑抽象，算法工程师不需要关注底层系统的运行，只要编辑算法流程的逻辑描述，即可实现的算法流程的开发部署以及线上运维。在此基础上平台内建了统一的计算存储的血缘管理，基于此关系，以及算法逻辑描述的分析，平台有一套计算存储编辑优化层，可以自动的进行特征、样本、模型数据的共享和计算存储的优化。例如:当我们发现2组算法实验流程特征重合度很高时，我们的系统会自动合并两组特征计算和存储，大大提升整个平台的存储效率。
通过以上平台级赋能更多的业务创新可以实现更低的成本实现工程实施与效果验证，从而实现产品创意到算法，到工程的快速迭代循环。

批流一体的在线深度学习解决方案

随着对着业务时效性的追求越来越强，在线深度学习技术越来越重要。为此我们提供了批一体的在线深度学习解决方案，使得模型可以实时更新，业务则可以及时的捕捉用户的行为变化。

1.什么是批流一体
就是可以用一套算法逻辑描述既可以进行天级的批量学习，也可以进行在线实时学习，这样可以大幅减少算法流程开发的复杂度，还可以保障全量模型和实时模型之间的一致性。

• 基于Blink进行特征样本的实时计算，得益于Blink强大的计算能力，可以提供百万级QPS的流失样本的高可靠计算，基于XDL深度学习框架模型进行深度实时训练，同时可以提供高可靠的实时模型校验能力，最后把模型实时变化的更新成RTP在线模型服务，最快可以提供端到端的分钟级模型更新能力，在阿里的搜索、推荐、广告业务上发挥巨大作用，大幅度提升了系统时效性。

2.XDL：高维稀疏训练引擎
深度学习的算力的提升，主要提现了两个关键环节

深度模型训练的效率；
深度模型在线预估的效率；
搜索推荐广告是高维稀疏的场景，特征规模和参数规模高达百亿、千亿量级，模型呈现既宽又深的特点，需要同时进行宽度计算优化和深度计算优化.

XDL是面向高维稀疏场景打造的分布式深度学习训练框架
• 进行大量的分布式模型优化，重新设计高性能的参数服务器，基于实时统计的动态参数放置策略，消除参数服务器的计算热点，同时实现优雅的分布式容灾策略，以便进行更高效的高并发训练。
• 在计算加速上，进行大量分布式计算图优化，包括高性能数据处理流水线，稀疏算子融合，参数交换的通信合并，极致的计算和通信的异步化等。一系列优化使得XDL可以支持数百亿特征，数千亿参数，千级数据平行的分部署式高维稀疏训练，优秀的自动分布式能力和自动流水线能力使得模型开发人员无需关心底层的细节，只需关注自身的模型开发逻辑即可；
• 在高层范式层面，XDL支持良好的结构化训练和流式训练能力，结构化训练是指利用搜索推荐广告场景下互联网样本结构化的特点，充分减少前项计算和后项计算，大幅提升训练效率。

3.RTP：分布式预估服务
RTP，作为AIOS提体系的分布式深度学习预估服务，将机器学习在线预测能力模块化提供了强大的模型应用编排能力，使得机器技术可以应用到搜索推荐广告在线服务的全链路中，包括召回，精排，重排以及摘要选取等各个环节。
RTP还可以提供分布式模型和分布式特征之间的全量一致性切换语义，也可以支持TB级别模型的在线服务。
• 深度模型的在线推理效率是至关重要的，需要在一定延迟约束下，进行大量深度学习的计算，为此在推理异构计算方面RTP集成了专门的异构推理计算加速引擎，可以同时支持FPG、CPU、GPU、阿里NPU等各种各样的异构硬件，为业务在深度学习领域提供了巨大的算力；
• 从离线训练的模型到在线预估模型，整个交付环节是也很重要，在这个过程中，需要对模型进行量化压缩，模型计算图改写逻辑，从而保证模型的在线推理逻辑的最大化。