2684亿销售额背后的阿里AI技术

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 刚刚结束的双十一,天猫交易额达到 2684 亿元,较去年同比增长 25.7%。这一结果背后,云计算、人工智能等技术以及阿里巴巴工程师们的努力功不可没。在正在召开的 AICon 全球人工智能与机器学习技术大会 现场,阿里云智能计算平台事业部研究员林伟介绍了阿里基于飞天 AI 平台的人工智能技术及能力,揭开双 11 大规模交易场景下,阿里人工智能技术的神秘面纱。

演讲人:林伟
整理 | AI前线 赵钰莹

IMG_5871.JPG

人工智能生态发展趋势

大家好,我是林伟,我今天演讲的主题是《AI 突破无限可能—5 亿消费者的云上双 11》。我本人是做系统出身的,但在最近的一些会议上发现,越来越多做系统出身的人开始研究 AI。在 90 年代末的那波热潮里,我有幸在学校的人工智能实验室呆过,那时还在纠结模型效果,最后发现是自己想多了,那时做出来的东西还远远达不到可用的状态。在后来的一段时间内,AI 进入沉寂,最近几年又突然火爆,我在一些学校做交流的时候发现很多同学都在研究 AI 算法,但其实神经网络、遗传算法和模拟算法很多年前就已经出现,最近几年才爆发的最主要原因是数据和算力的提升

在这之中,云计算也起到了很大作用,只有算力更加充足,才可以拟合出更加有效的模型,这也是阿里巴巴 2009 年坚定投入云计算的重要原因。说到阿里云,其实阿里云有个非常大的客户就是阿里巴巴自己的电商业务,而阿里电商全年最重要的一个活动就是双 11。

过去几年,阿里双 11 的营业额逐渐升高,这背后更深层次的原因其实是我们实现了核心系统的 100% 上云。上云之后,我们发现 AI 离不开计算,只有具备强大的计算力才可以利用 AI 技术提高效率,双 11 就是一个很好的练兵场。在这样的规模下,如何构造系统、处理数据以及迅速挖掘数据背后的价值是我们在思考的问题。

在整个大趋势下面,我们可以看到三个因素:
一是实时化。 双 11 就一天,我们必须理解数据并及时反馈给商家,实时性非常重要,双 11 大屏背后的支撑系统就是通过 Flink 实现实时计算。单纯的销售额可能没有特别大的意义,我们需要进行实时分析以得到更细致的指标,比如用户的购买兴趣、商品类别、供销比、渠道、仓储位置和货源等,我们需要通过实时分析及时反馈给商家、快递公司等,让各方都可以明确如何调整双 11 当天的策略。今年双 11,我们每秒可以处理 25.5 亿条消息,包括买卖消息、快递请求等。

3C58EC93-6BE0-41F4-8991-7E7671E89E60.png

二是规模性。 我们不仅需要实时反馈,双 11 结束还需要精细对账给银行和商家。今年,我们仅花费一天时间(也就是 11 月 12 日)就完成了所有报表汇报,这就是通过云平台的弹性来实现的。在这么大的规模下,商家服务效率也是一个问题,原来就是靠人,用电话和小二来服务商家,现在这样的规模体系下就需要用 AI 技术来服务商家,并通过 AI 辅助快递配送,比如机器人可能会询问用户:在不在家?包裹放在哪里等问题。在大家以往的印象中,AI 离生活很远,但辅助快递配送就是一个很具体的场景,可以为用户带来更好的体验,包括淘宝首页的个性化推荐等。

如今,淘宝推荐也会有一些动态封面,这背后是我们一天分析了 2.5 亿个视频的结果,现在的淘宝上也有很多用短视频卖货宣传的,我们分析了 2.5 亿视频,最后日均商品分析达到 15000 万。我们统计了当天通过视频购买商品的人,发现平均有效时长是 120 秒。通过这种新技术可以促进新的场景。

三是 AI。 这一切的背后是数据的力量,整个双 11 都是 AI 和数据在驱动。实时性、规模性和 AI 三者相辅相成让双 11 的效率得到了大幅提高,计算处理能力也有了很大提高,这就是 2684 亿销售额背后的技术力量。

云上双 11 的 AI 能力

2.png
回归技术本身。2017 年以前,我们的系统是比较简单的,更多的任务是处理数据和生成报表。一年半以前,我们开始加入更多实时性,用实时数据反馈商业决策,这就有了 MaxCompute 的出现。

3.png
如今,整个技术后台非常复杂,我们有非常好的一些计算引擎,可以进行全域数据集成,具备统一的源数据管理、任务管理,智能数据开发和数据合成治理等能力。

4.png
说到底,AI 和计算其实是共生体,AI 的繁荣依赖于计算力的积累,所以我们需要很好的数据处理平台进行分析和提取,服务好算法工程师进行创新,比如尝试各种各样的模型、各种各样构造机器学习的方式,看看能否提高人工智能的效率和准确度。

企业如何构建云上 AI 能力

上述这些主要是 AI 的场景,接下来,我会着重介绍这些场景背后的 AI 技术,主要围绕飞天 AI 平台,上层是 PAI 和在线推理服务 EAS,然后分为 DSW 开发平台,PAI Studio 和 Auto Learning 三部分,基于训练优化引擎和推理优化引擎,解决大规模分布式数据处理问题。
5.png

此外,我们还有在线机器学习系统,可以对用户行为日志进行实时和离线计算,然后抽取特征库,生成批流统一样本,进入样本库,最终进行批流统一模型训练。为什么我们要做这个?一是因为实时性,传统的搜索是非常不敏感的,而我们是在遵循用户兴趣的变化,如果两周更新一次模型可能已经错过了几轮热销商品,我们需要通过在线机器学习的方式进行实时判断,这非常接近于深度学习。在非实时的状态下,工程师可以非常精细的做特征工程,花更多的时间理解数据,利用深度学习本身的特性捕获数据之间的关系,而不是靠专家提取,这是深度学习的好处,但这需要海量的计算才可以完成,而在线机器学习系统会把双 11 当天的日志及时传递到实时计算平台做集合,然后通过分析按照 ID 对数据进行聚合形成样本,最后根据样本做增量学习、验证、部署,只有这样才能快速更新模型,使其遵循用户或者商业的变化。

6.png
在这个过程中,我们面临的第二个挑战是模型非常大,因为要“千人千面”,因此需要一个非常大且针对稀疏场景的分布式训练。目前的开源机器学习框架还远远达不到我们的规模要求,我们需要进行大量的优化,以便在稀疏场景下训练大规模数据。如果对深度学习有了解,就应该知道深度学习可以描述非常大的细粒度图,在图上如何进行切割让图的计算和通讯可以更好地平衡是需要考虑的问题。

通过通信算子融合和基于通信代价的算子下推,我们实现了分布式图优化技术。通过高效内存分配库,比如 thread 库、Share Nothing 执行框架;利用 Spares 特性的通讯;异步训练,通讯和计算充分 overlap;容错、partial checkpoint、autoscale、动态 embedding;支持大规模梯度 optimizer 的方法实现运行框架的优化,如下图所示:

7.png
优化之后,性能上达到了七倍提升。稀疏特征规模从数十亿到数百亿,样本从数百亿到上千亿,同时还有上千worker 的分布式增量训练。

8.png
在动态封面层面,我们分析了大量视频文件,视频比图片更复杂,因为视频牵涉的环节非常多,需要做视频的预处理,提取视频帧,但不可能每一帧都进行提取,这样做的代价实在是太大了,需要提取视频的关键帧,通过图片识别和目标检测提取,这是很复杂的工作。因此,我们研发了视频平台,帮助视频分析和算法工程师解决问题,具体架构如下图所示:

9.png
在视频里面,在线服务其实也很复杂,有分解,也有合成。首先对视频进行分解,然后加以理解并提取,最后进行合成。通过视频 PAI-EAS 在线服务平台,算法工程师只需要编写简单的 Python 代码就可以通过接口调用相应服务,让他们有更多的时间进行创新。

10.png
除了上述场景,整个平台最重要的就是支持算法工程师的海量创新。五年以前,阿里的算法模型非常宝贵,写算法的人不是特别多。随着深度学习的演进,现在越来越多的算法工程师在构造模型。为了支撑这些需求,我们进行了 AI 自动化,让算法建模同学专注业务建模本身,由系统将基础设施(PAI)完成业务模型的高效、高性能运行执行。

11.png
在深度学习方面,我们分别进行了前端和后端优化。我们希望通过编译技术,系统技术服务实现图优化、任务分割、分布式调度、数据分片、模型分片,通过系统模型选择我们认为最好的方案执行,这是我们整个平台做 PAI 的理念。整个 PAI-Blade 通用推理优化框架分为如下几部分:

12.png
通过系列改进,我们也取得了一些优化成果。我们有一个非常大的集群,在集群足够大的时候,我们就可以很好地实现复用。通过资源调度和引擎的配合能够提升 GPU 集群 30% 的利用率。

13.png
此外,我们很多 AI 服务都加载在线服务框架,我们叫做 PAI EAS,这个框架是云原生的,可以更好地利用云平台本身的规模性和可扩展性,撑住双 11 当天的海量 AI 请求。因为双 11 不仅是商业数据、购买数据在暴涨,AI 请求也在暴涨,比如智能客服、菜鸟语音当天的服务量都非常大,通过利用云平台的能力,我们可以提供更好的体验。

14.png

综上,这些技术支撑了阿里巴巴的所有 BU,支持单任务 5000+ 的分布式训练,有数万台的机器,数千 AI 的服务,日均调用量可以达到上十万的规模。最后,阿里双 11 的成长和 AI 技术的成长以及数据的爆发密不可分。

嘉宾介绍:

林伟,阿里云智能计算平台事业部研究员,十五年大数据超大规模分布式系统经验,负责阿里巴巴大数据 MaxCompute 和机器学习 PAI 平台整体设计和构架,推动 MaxCompute2.0,以及 PAI2.0、PAI3.0 的演进。加入阿里之前是微软大数据 Cosmos/Scope 的核心成员,在微软研究院做分布式系统方面的研究,分别致力于分布式 NoSQL 存储系统 PacificA、分布式大规模批处理 Scope、调度系统 Apollo、流计算 StreamScope 以及 ScopeML 分布式机器学习的工作。在 ODSI、NSDI、SOSP、SIGMOD 等系统领域顶级会议发表十余篇论文。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8天前
|
机器学习/深度学习 数据采集 人工智能
探索AI技术在文本生成中的应用与挑战
【9月更文挑战第26天】本文深入探讨了AI技术在文本生成领域的应用,并分析了其面临的挑战。通过介绍AI文本生成的基本原理、应用场景以及未来发展趋势,帮助读者全面了解该技术的潜力和局限性。同时,文章还提供了代码示例,展示了如何使用Python和相关库实现简单的文本生成模型。
33 9
|
8天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术融合
本文探讨了人工智能(AI)在未来医疗领域的应用及其潜在影响。通过分析当前的技术进步和具体案例,如AI辅助诊断、个性化治疗方案及医疗机器人等,展示了AI如何提高医疗服务的效率和准确性,降低医疗成本,并增强患者的治疗体验。同时,文章也讨论了AI在医疗中面临的伦理和隐私问题,以及解决这些问题的可能途径。最后,本文对AI在未来医疗中的前景进行了展望,指出其将继续深刻改变医疗保健行业,为患者和医疗专业人员带来更多福祉。
|
10天前
|
机器学习/深度学习 存储 人工智能
AI与未来医疗:技术的飞跃与挑战
在当今科技迅速发展的时代,人工智能(AI)正以前所未有的速度渗透到各行各业。特别是在医疗领域,AI的潜力和应用前景令人瞩目。本文将探讨AI在未来医疗中的角色,分析其带来的变革与挑战,并展望未来的发展方向。
|
2天前
|
人工智能 自然语言处理 搜索推荐
AI技术在智能客服系统中的应用与挑战
【9月更文挑战第32天】本文将探讨AI技术在智能客服系统中的应用及其面临的挑战。我们将分析AI技术如何改变传统客服模式,提高服务质量和效率,并讨论在实际应用中可能遇到的问题和解决方案。
93 65
|
3天前
|
人工智能 缓存 搜索推荐
OPENAI DevDay 2024:推动AI技术的新边界
在今年的OPENAI DevDay活动中,尽管形式更为低调,但OpenAI依然带来了四项令人瞩目的技术创新,展示了其在推动人工智能开发者生态方面的持续努力,以及向更高效、用户友好的AI工具转型的决心。我将为大家详细介绍这些新产品
38 10
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术性文章
【9月更文挑战第27天】本文将深入探讨人工智能(AI)技术在现代社会的应用和发展。我们将从AI的基本概念开始,探讨其在各个领域的应用,包括医疗保健、交通、金融等。我们还将讨论AI技术的挑战和未来趋势。
|
11天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术,守护人类健康
本文探讨了人工智能在医疗领域的应用及其对未来的深远影响。通过具体案例和深入分析,我们了解到AI如何提升医疗诊断的准确性、优化治疗方案以及改善患者管理。从医学影像分析到个性化治疗,再到医疗机器人的应用,AI正在全方位地改变医疗行业。同时,我们也讨论了这一技术带来的挑战和伦理问题,并提出了相应的对策。总之,AI在医疗领域的广泛应用不仅为医生提供了有力支持,也显著提高了患者的生活质量。
|
8天前
|
数据采集 机器学习/深度学习 人工智能
云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进
本文根据2024云栖大会实录整理而成,演讲信息如下: 演讲人:林伟 | 阿里云智能集团研究员、阿里云人工智能平台 PAI 负责人;黄博远|阿里云智能集团资深产品专家、阿里云人工智能平台 PAI 产品负责人 活动:2024 云栖大会 - AI Infra 核心技术专场、人工智能平台 PAI 年度发布专场
|
8天前
|
人工智能 前端开发 Java
Spring Cloud Alibaba AI,阿里AI这不得玩一下
🏀闪亮主角: 大家好,我是JavaDog程序狗。今天分享Spring Cloud Alibaba AI,基于Spring AI并提供阿里云通义大模型的Java AI应用。本狗用SpringBoot+uniapp+uview2对接Spring Cloud Alibaba AI,带你打造聊天小AI。 📘故事背景: 🎁获取源码: 关注公众号“JavaDog程序狗”,发送“alibaba-ai”即可获取源码。 🎯主要目标:
17 0
|
9天前
|
机器学习/深度学习 人工智能 开发框架
智能ai量化高频策略交易软件、现货合约跟单模式开发技术规则
该项目涵盖智能AI量化高频策略交易软件及现货合约跟单模式开发,融合人工智能、量化交易与软件工程。软件开发包括需求分析、技术选型、系统构建、测试部署及运维;跟单模式则涉及功能定义、策略开发、交易执行、终端设计与市场推广,确保系统高效稳定运行。
下一篇
无影云桌面