专访阿里巴巴林伟:三项世界级挑战背后的思考、实践和经验

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 今年双11,阿里云大数据平台扛住了巨大的技术挑战,主要体现在实时数据处理技术以及超大规模的离线数据处理两方面,来自阿里巴巴的资深技术专家林伟将为大家介绍双11前中后大数据计算平台对于整个双11的成功提供了哪些不可或缺的支持。
12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办。(https://yq.aliyun.com/promotion/139

12月6日晚20:00,来自阿里巴巴的资深架构师林伟将在在线论坛上发表《阿里大规模数据计算与处理平台》的演讲。

今年双11,阿里云大数据平台扛住了巨大的技术挑战,主要体现在两方面:实时数据处理技术方面,包括日志数据和交易数据的实时采集、分发、计算,最终在媒体直播大屏上实时渲染和展示,整个链路的稳定性保障压力是巨大的。双11期间阿里云实时 大数据系统完成了三项世界级的挑战:1.低延时,从零点第一笔交易发生,到媒体大屏上显示出统计结果,整个处理过程仅延时仅几秒钟;2.高性能、高吞吐,最高处理速度达到千万条/秒,流计算的整体性能比去年提升了N倍;3.高可用,全天服务不降级 、无故障,扛下了高峰期所有的流量。而在超大规模的离线数据处理方面,双11期间,阿里云MaxCompute扛下了单天数据处理峰值上百PB,以及百万级的调度作业,这对于作业调度、计算性能、系统稳定性等都是极大的考验。本次分享,林伟将为大家 介绍到双11前中后大数据计算平台对于整个双11的成功提供了哪些不可或缺的支持。

为了帮助大家更好地了解讲师及议题,评估本次演讲,云栖社区对讲师进行了采访。

受访嘉宾:
林伟,阿里巴巴大数据事业部资深架构师,原微软Cosmos/Scope核心开发人员, 现负责阿里巴巴大数据计算平台总体架构,该平台是阿里巴巴核心计算分析平台,承担阿里内部绝大数计算任务。林伟作为一名分布式系统研究员,在国外一流会议OSDI, SIGMOD, NSDI, VLDB发表多篇论文。是大数据存储,分布式计算,数据查询优化,分布式调度等领域的专家。具有10多年研究和开发经历,分别打造微软和阿里内部大型数万台级别数据中心的计算平台。
625643270b3e747d2e092be8d4c9b39d8cc15705

以下为采访正文:

云栖社区: 可以简要介绍下双11期间阿里云大数据平台具体承接了哪些业务吗?
林伟:阿里云大数据平台在双11承担了海量数据分析服务,各个部门会在计算平台上对于相关数据进行深入分析从而保障双11成功进行,比如价格监测,是否是真正的实惠,仓储预算,用户群体画像,行为分析,交易风险控制等等

云栖社区:“今年双11,阿里云实时大数据系统完成了三项世界级的挑战”,性能显著提升的背后,阿里云大数据平台在技术上做了哪些关键的优化?
林伟:双11当天,大数据增量计算平台Galaxy承担了海量数据实时统计计算,最难的是如何保证分类的实时统计和汇总统计之间数据的一致性。我们在实现完整在分布式场景里支持可逆操作的增量计算,这个在行业内也是领先的

云栖社区:随着业务的飞速发展,你认为阿里云大数据平台的下一步发展的方向将是什么呢?
林伟:下一步的发展会聚焦在如下方向:
a) 低成本,高性能:我们只能继续提供计算平台性能才能支持海量数据处理,下降大家享用大数据分析带来成本。使得大数据分析能够走进平常百姓。这个会要求更好的更强的查询优化器,现在都在这个方向花大力气;
b) 机器学习: 更加强大的机器学习框架,能够利用更好各种计算资源比如GPU/FPGA等等来加速机器学习过程;
c) 更加整合多种计算框架使得用户业务能够把多种计算方式有机整合在一起,比如流计算,离线,graph,机器学习等等;
d) 开发者友好:更好编程,编译,调试,更好进行实验等等。

云栖社区:在你看来,分布式系统架构设计应该具备哪些关键特性?有哪些原则可遵循?可否分享下思路经验?
林伟:架构设计就是如何在有限的环境中,在有限性能的硬件条件上,做到良好的平衡,使得业务主要场景取得最好性能,具体可以参考我在今年云栖大会的分享。
感兴趣的朋友,可以参考阅读本篇文章:https://yq.aliyun.com/articles/63155, 本文PPT来自林伟10月15日在2016年杭州云栖大会上发表的《我看分布式系统发展和阿里实践》。

云栖社区:在本次在线峰会上,该内容适合哪些听众?
林伟:希望从事实时统计的开发者(Galaxy部分),其他部分适合所有用户

云栖社区:对于架构师的成长,有哪些建议或者经验分享?以及请你推荐一本最喜欢的技术书籍(书单更佳)
林伟:多看OSDI, SOSP, ATC, SIGMOD,VLDB等paper,特别是来自于产业界的paper。同时多读code(现在开源code很多,是一个很好的素材),最好带着实际问题去改写。通过paper去了解人们进行这个选择背后的理由。

“2016双11技术创新“在线论坛专题:https://yq.aliyun.com/promotion/139

8767e427e77ab7c119d0a6383f1416e2ba79f8cb

4da97b2a6e9faa41666e4095a723971bc69b691e

论坛火热报名中,成功预约报名,享受峰会结束后全套资料下载并可参加抽奖。
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
存储 资源调度 监控
|
4月前
|
数据采集 人工智能 自然语言处理
AI邂逅青年科学家,大模型化身科研“搭子”
2025年6月30日,首届魔搭开发者大会在北京举办,涵盖前沿模型、MCP、Agent等七大论坛。科研智能主题论坛汇聚多领域科学家,探讨AI与科研融合的未来方向。会上展示了AI在药物发现、生物计算、气候变化、历史文献处理等多个领域的创新应用,标志着AI for Science从工具辅助向智能体驱动的范式跃迁。阿里云通过“高校用云”计划推动科研智能化,助力全球科研创新。
|
人工智能 大数据 调度
【云栖2023】林伟:大数据AI一体化的解读
本文根据2023云栖大会阿里云研究员,阿里云计算平台事业部首席架构师,阿里云人工智能平台PAI和大数据开发治理平台DataWorks负责人---林伟演讲实录整理而成,演讲主题:”大数据AI一体化的解读“。
|
XML 存储 API
RAG效果优化:高质量文档解析详解
本文介绍了如何通过高质量的文档解析提升RAG系统整体的效果。
16521 15
|
10月前
|
人工智能 自然语言处理 测试技术
阿里云通义实验室自然语言处理方向负责人黄非:通义灵码2.0,迈入 Agentic AI
在通义灵码 2.0 发布会上,阿里云通义实验室自然语言处理方向负责人黄非分享了代码大模型的演进。过去一年来,随着大模型技术的发展,特别是智能体技术的深入应用,通义灵码也在智能体的基础上研发了针对于整个软件研发流程的不同任务的智能体,这里既包括单智能体,也包括多智能体合并框架,在这样的基础上我们研发了通义灵码2.0。
762 21
|
存储 NoSQL 关系型数据库
微服务Zipkin链路追踪原理,图解版,一文吃透!
本文重点讲解Zipkin链路追踪的原理与使用,帮助解决微服务架构下的服务响应延迟等问题,提升系统性能与稳定性。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
微服务Zipkin链路追踪原理,图解版,一文吃透!
|
Kubernetes 架构师 Java
史上最全对照表:大厂P6/P7/P8 职业技能 薪资水平 成长路线
40岁老架构师尼恩,专注于帮助读者提升技术能力和职业发展。其读者群中,多位成员成功获得知名互联网企业的面试机会。尼恩不仅提供系统化的面试准备指导,还特别针对谈薪酬环节给予专业建议,助力求职者在与HR谈判时更加自信。此外,尼恩还分享了阿里巴巴的职级体系,作为行业内广泛认可的标准,帮助读者更好地理解各职级的要求和发展路径。通过尼恩的技术圣经系列PDF,如《尼恩Java面试宝典》等,读者可以进一步提升自身技术实力,应对职场挑战。关注“技术自由圈”公众号,获取更多资源。
|
存储 人工智能 并行计算
Pai-Megatron-Patch:围绕Megatron-Core打造大模型训练加速生态
Pai-Megatron-Patch(https://github.com/alibaba/Pai-Megatron-Patch)是阿里云人工智能平台PAI研发的围绕Nvidia MegatronLM的大模型开发配套工具,旨在帮助开发者快速上手大模型,完成大模型(LLM)相关的高效分布式训练,有监督指令微调,下游任务评估等大模型开发链路。最近一年来,我们持续打磨Pai-Megatron-Patch的性能和扩展功能,围绕Megatron-Core(以下简称MCore)进一步打造大模型训练加速技术生态,推出更多的的训练加速、显存优化特性。
|
数据采集 机器学习/深度学习 人工智能
云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进
本文根据2024云栖大会实录整理而成,演讲信息如下: 演讲人:林伟 | 阿里云智能集团研究员、阿里云人工智能平台 PAI 负责人;黄博远|阿里云智能集团资深产品专家、阿里云人工智能平台 PAI 产品负责人 活动:2024 云栖大会 - AI Infra 核心技术专场、人工智能平台 PAI 年度发布专场
|
Cloud Native Serverless 测试技术
祝贺!我的同事丁宇获“2023 年度云原生产业领军人物”荣誉称号
祝贺!我的同事丁宇获“2023 年度云原生产业领军人物”荣誉称号
1134 98