专访阿里巴巴林伟:三项世界级挑战背后的思考、实践和经验

简介: 今年双11,阿里云大数据平台扛住了巨大的技术挑战,主要体现在实时数据处理技术以及超大规模的离线数据处理两方面,来自阿里巴巴的资深技术专家林伟将为大家介绍双11前中后大数据计算平台对于整个双11的成功提供了哪些不可或缺的支持。
12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办。(https://yq.aliyun.com/promotion/139

12月6日晚20:00,来自阿里巴巴的资深架构师林伟将在在线论坛上发表《阿里大规模数据计算与处理平台》的演讲。

今年双11,阿里云大数据平台扛住了巨大的技术挑战,主要体现在两方面:实时数据处理技术方面,包括日志数据和交易数据的实时采集、分发、计算,最终在媒体直播大屏上实时渲染和展示,整个链路的稳定性保障压力是巨大的。双11期间阿里云实时 大数据系统完成了三项世界级的挑战:1.低延时,从零点第一笔交易发生,到媒体大屏上显示出统计结果,整个处理过程仅延时仅几秒钟;2.高性能、高吞吐,最高处理速度达到千万条/秒,流计算的整体性能比去年提升了N倍;3.高可用,全天服务不降级 、无故障,扛下了高峰期所有的流量。而在超大规模的离线数据处理方面,双11期间,阿里云MaxCompute扛下了单天数据处理峰值上百PB,以及百万级的调度作业,这对于作业调度、计算性能、系统稳定性等都是极大的考验。本次分享,林伟将为大家 介绍到双11前中后大数据计算平台对于整个双11的成功提供了哪些不可或缺的支持。

为了帮助大家更好地了解讲师及议题,评估本次演讲,云栖社区对讲师进行了采访。

受访嘉宾:
林伟,阿里巴巴大数据事业部资深架构师,原微软Cosmos/Scope核心开发人员, 现负责阿里巴巴大数据计算平台总体架构,该平台是阿里巴巴核心计算分析平台,承担阿里内部绝大数计算任务。林伟作为一名分布式系统研究员,在国外一流会议OSDI, SIGMOD, NSDI, VLDB发表多篇论文。是大数据存储,分布式计算,数据查询优化,分布式调度等领域的专家。具有10多年研究和开发经历,分别打造微软和阿里内部大型数万台级别数据中心的计算平台。
625643270b3e747d2e092be8d4c9b39d8cc15705

以下为采访正文:

云栖社区: 可以简要介绍下双11期间阿里云大数据平台具体承接了哪些业务吗?
林伟:阿里云大数据平台在双11承担了海量数据分析服务,各个部门会在计算平台上对于相关数据进行深入分析从而保障双11成功进行,比如价格监测,是否是真正的实惠,仓储预算,用户群体画像,行为分析,交易风险控制等等

云栖社区:“今年双11,阿里云实时大数据系统完成了三项世界级的挑战”,性能显著提升的背后,阿里云大数据平台在技术上做了哪些关键的优化?
林伟:双11当天,大数据增量计算平台Galaxy承担了海量数据实时统计计算,最难的是如何保证分类的实时统计和汇总统计之间数据的一致性。我们在实现完整在分布式场景里支持可逆操作的增量计算,这个在行业内也是领先的

云栖社区:随着业务的飞速发展,你认为阿里云大数据平台的下一步发展的方向将是什么呢?
林伟:下一步的发展会聚焦在如下方向:
a) 低成本,高性能:我们只能继续提供计算平台性能才能支持海量数据处理,下降大家享用大数据分析带来成本。使得大数据分析能够走进平常百姓。这个会要求更好的更强的查询优化器,现在都在这个方向花大力气;
b) 机器学习: 更加强大的机器学习框架,能够利用更好各种计算资源比如GPU/FPGA等等来加速机器学习过程;
c) 更加整合多种计算框架使得用户业务能够把多种计算方式有机整合在一起,比如流计算,离线,graph,机器学习等等;
d) 开发者友好:更好编程,编译,调试,更好进行实验等等。

云栖社区:在你看来,分布式系统架构设计应该具备哪些关键特性?有哪些原则可遵循?可否分享下思路经验?
林伟:架构设计就是如何在有限的环境中,在有限性能的硬件条件上,做到良好的平衡,使得业务主要场景取得最好性能,具体可以参考我在今年云栖大会的分享。
感兴趣的朋友,可以参考阅读本篇文章:https://yq.aliyun.com/articles/63155, 本文PPT来自林伟10月15日在2016年杭州云栖大会上发表的《我看分布式系统发展和阿里实践》。

云栖社区:在本次在线峰会上,该内容适合哪些听众?
林伟:希望从事实时统计的开发者(Galaxy部分),其他部分适合所有用户

云栖社区:对于架构师的成长,有哪些建议或者经验分享?以及请你推荐一本最喜欢的技术书籍(书单更佳)
林伟:多看OSDI, SOSP, ATC, SIGMOD,VLDB等paper,特别是来自于产业界的paper。同时多读code(现在开源code很多,是一个很好的素材),最好带着实际问题去改写。通过paper去了解人们进行这个选择背后的理由。

“2016双11技术创新“在线论坛专题:https://yq.aliyun.com/promotion/139

8767e427e77ab7c119d0a6383f1416e2ba79f8cb

4da97b2a6e9faa41666e4095a723971bc69b691e

论坛火热报名中,成功预约报名,享受峰会结束后全套资料下载并可参加抽奖。
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
弹性计算 API Docker
零门槛教程:阿里云ECS+本地部署OpenClaw(Clawdbot) 集成Skills攻略
在2026年AI Agent技术飞速迭代的浪潮中,OpenClaw(原Clawdbot、曾用名Moltbot)凭借轻量化部署、高自由度扩展、开源可控的核心优势,成为个人开发者、新手及轻量团队搭建专属智能自动化助手的首选工具。其前身Clawdbot因商标问题曾更名Moltbot,最终于2026年1月30日正式定名OpenClaw,三者代码与核心功能完全一致,仅为品牌迭代后的名称差异,CLI命令仍兼容clawdbot与moltbot,无需额外适配即可无缝过渡使用。
798 19
|
人工智能 大数据 调度
【云栖2023】林伟:大数据AI一体化的解读
本文根据2023云栖大会阿里云研究员,阿里云计算平台事业部首席架构师,阿里云人工智能平台PAI和大数据开发治理平台DataWorks负责人---林伟演讲实录整理而成,演讲主题:”大数据AI一体化的解读“。
|
9月前
|
数据采集 人工智能 自然语言处理
AI邂逅青年科学家,大模型化身科研“搭子”
2025年6月30日,首届魔搭开发者大会在北京举办,涵盖前沿模型、MCP、Agent等七大论坛。科研智能主题论坛汇聚多领域科学家,探讨AI与科研融合的未来方向。会上展示了AI在药物发现、生物计算、气候变化、历史文献处理等多个领域的创新应用,标志着AI for Science从工具辅助向智能体驱动的范式跃迁。阿里云通过“高校用云”计划推动科研智能化,助力全球科研创新。
|
XML 存储 API
RAG效果优化:高质量文档解析详解
本文介绍了如何通过高质量的文档解析提升RAG系统整体的效果。
17228 15
|
人工智能 自然语言处理 API
阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点
本课程旨在介绍阿里云百炼大模型平台的核心功能和应用场景,帮助开发者和技术小白快速上手,体验AI的强大能力,并探索企业级AI应用开发的可能性。
3136 85
|
存储 人工智能 并行计算
Pai-Megatron-Patch:围绕Megatron-Core打造大模型训练加速生态
Pai-Megatron-Patch(https://github.com/alibaba/Pai-Megatron-Patch)是阿里云人工智能平台PAI研发的围绕Nvidia MegatronLM的大模型开发配套工具,旨在帮助开发者快速上手大模型,完成大模型(LLM)相关的高效分布式训练,有监督指令微调,下游任务评估等大模型开发链路。最近一年来,我们持续打磨Pai-Megatron-Patch的性能和扩展功能,围绕Megatron-Core(以下简称MCore)进一步打造大模型训练加速技术生态,推出更多的的训练加速、显存优化特性。
|
人工智能 分布式计算 大数据
云栖实录 | MaxCompute 迈向下一代的智能云数仓
2024年云栖大会上,阿里云核心自研云原生智能数据仓库产品MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示MaxCompute产品领先行业的云数据产品发展理念与核心优势。
1824 2
|
Docker 容器
如何查看docker版本|12
如何查看docker版本|12
684 3
|
人工智能 自然语言处理 算法
魔搭城市行 | 南京站 · 「阿里巴巴人工智能大模型&魔搭开源社区交流论坛」成功举办
2024年1月11日下午,阿里巴巴人工智能大模型及魔搭开源社区交流沙龙 · 南京站在南京软件谷云密城L栋成功举办!