专访阿里巴巴林伟:三项世界级挑战背后的思考、实践和经验

简介: 今年双11,阿里云大数据平台扛住了巨大的技术挑战,主要体现在实时数据处理技术以及超大规模的离线数据处理两方面,来自阿里巴巴的资深技术专家林伟将为大家介绍双11前中后大数据计算平台对于整个双11的成功提供了哪些不可或缺的支持。
12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办。(https://yq.aliyun.com/promotion/139

12月6日晚20:00,来自阿里巴巴的资深架构师林伟将在在线论坛上发表《阿里大规模数据计算与处理平台》的演讲。

今年双11,阿里云大数据平台扛住了巨大的技术挑战,主要体现在两方面:实时数据处理技术方面,包括日志数据和交易数据的实时采集、分发、计算,最终在媒体直播大屏上实时渲染和展示,整个链路的稳定性保障压力是巨大的。双11期间阿里云实时 大数据系统完成了三项世界级的挑战:1.低延时,从零点第一笔交易发生,到媒体大屏上显示出统计结果,整个处理过程仅延时仅几秒钟;2.高性能、高吞吐,最高处理速度达到千万条/秒,流计算的整体性能比去年提升了N倍;3.高可用,全天服务不降级 、无故障,扛下了高峰期所有的流量。而在超大规模的离线数据处理方面,双11期间,阿里云MaxCompute扛下了单天数据处理峰值上百PB,以及百万级的调度作业,这对于作业调度、计算性能、系统稳定性等都是极大的考验。本次分享,林伟将为大家 介绍到双11前中后大数据计算平台对于整个双11的成功提供了哪些不可或缺的支持。

为了帮助大家更好地了解讲师及议题,评估本次演讲,云栖社区对讲师进行了采访。

受访嘉宾:
林伟,阿里巴巴大数据事业部资深架构师,原微软Cosmos/Scope核心开发人员, 现负责阿里巴巴大数据计算平台总体架构,该平台是阿里巴巴核心计算分析平台,承担阿里内部绝大数计算任务。林伟作为一名分布式系统研究员,在国外一流会议OSDI, SIGMOD, NSDI, VLDB发表多篇论文。是大数据存储,分布式计算,数据查询优化,分布式调度等领域的专家。具有10多年研究和开发经历,分别打造微软和阿里内部大型数万台级别数据中心的计算平台。
625643270b3e747d2e092be8d4c9b39d8cc15705

以下为采访正文:

云栖社区: 可以简要介绍下双11期间阿里云大数据平台具体承接了哪些业务吗?
林伟:阿里云大数据平台在双11承担了海量数据分析服务,各个部门会在计算平台上对于相关数据进行深入分析从而保障双11成功进行,比如价格监测,是否是真正的实惠,仓储预算,用户群体画像,行为分析,交易风险控制等等

云栖社区:“今年双11,阿里云实时大数据系统完成了三项世界级的挑战”,性能显著提升的背后,阿里云大数据平台在技术上做了哪些关键的优化?
林伟:双11当天,大数据增量计算平台Galaxy承担了海量数据实时统计计算,最难的是如何保证分类的实时统计和汇总统计之间数据的一致性。我们在实现完整在分布式场景里支持可逆操作的增量计算,这个在行业内也是领先的

云栖社区:随着业务的飞速发展,你认为阿里云大数据平台的下一步发展的方向将是什么呢?
林伟:下一步的发展会聚焦在如下方向:
a) 低成本,高性能:我们只能继续提供计算平台性能才能支持海量数据处理,下降大家享用大数据分析带来成本。使得大数据分析能够走进平常百姓。这个会要求更好的更强的查询优化器,现在都在这个方向花大力气;
b) 机器学习: 更加强大的机器学习框架,能够利用更好各种计算资源比如GPU/FPGA等等来加速机器学习过程;
c) 更加整合多种计算框架使得用户业务能够把多种计算方式有机整合在一起,比如流计算,离线,graph,机器学习等等;
d) 开发者友好:更好编程,编译,调试,更好进行实验等等。

云栖社区:在你看来,分布式系统架构设计应该具备哪些关键特性?有哪些原则可遵循?可否分享下思路经验?
林伟:架构设计就是如何在有限的环境中,在有限性能的硬件条件上,做到良好的平衡,使得业务主要场景取得最好性能,具体可以参考我在今年云栖大会的分享。
感兴趣的朋友,可以参考阅读本篇文章:https://yq.aliyun.com/articles/63155, 本文PPT来自林伟10月15日在2016年杭州云栖大会上发表的《我看分布式系统发展和阿里实践》。

云栖社区:在本次在线峰会上,该内容适合哪些听众?
林伟:希望从事实时统计的开发者(Galaxy部分),其他部分适合所有用户

云栖社区:对于架构师的成长,有哪些建议或者经验分享?以及请你推荐一本最喜欢的技术书籍(书单更佳)
林伟:多看OSDI, SOSP, ATC, SIGMOD,VLDB等paper,特别是来自于产业界的paper。同时多读code(现在开源code很多,是一个很好的素材),最好带着实际问题去改写。通过paper去了解人们进行这个选择背后的理由。

“2016双11技术创新“在线论坛专题:https://yq.aliyun.com/promotion/139

8767e427e77ab7c119d0a6383f1416e2ba79f8cb

4da97b2a6e9faa41666e4095a723971bc69b691e

论坛火热报名中,成功预约报名,享受峰会结束后全套资料下载并可参加抽奖。
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
人工智能 大数据 调度
【云栖2023】林伟:大数据AI一体化的解读
本文根据2023云栖大会阿里云研究员,阿里云计算平台事业部首席架构师,阿里云人工智能平台PAI和大数据开发治理平台DataWorks负责人---林伟演讲实录整理而成,演讲主题:”大数据AI一体化的解读“。
|
XML 存储 API
RAG效果优化:高质量文档解析详解
本文介绍了如何通过高质量的文档解析提升RAG系统整体的效果。
17338 15
|
人工智能 分布式计算 大数据
云栖实录 | MaxCompute 迈向下一代的智能云数仓
2024年云栖大会上,阿里云核心自研云原生智能数据仓库产品MaxCompute,在经过一年的深度打磨后,推出了其迈向下一代智能云数据仓的系列主题分享。此次产品发布,充分展示MaxCompute产品领先行业的云数据产品发展理念与核心优势。
1884 2
|
Docker 容器
如何查看docker版本|12
如何查看docker版本|12
710 3
|
人工智能 自然语言处理 算法
魔搭城市行 | 南京站 · 「阿里巴巴人工智能大模型&魔搭开源社区交流论坛」成功举办
2024年1月11日下午,阿里巴巴人工智能大模型及魔搭开源社区交流沙龙 · 南京站在南京软件谷云密城L栋成功举办!
|
机器学习/深度学习 前端开发 算法
阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!
阿里云PAI发布基于HLO的全自动分布式系统 TePDist正式开源!
|
弹性计算 人工智能 云计算
飞天奖!恭喜我的同事们
飞天奖!恭喜我的同事们
1530 0
|
新零售 前端开发 搜索推荐
多领域,多角度!隐藏版阿里双11“黑科技”大公开
8位阿里技术大神深度解读:前端极限挑战、网络自动化、在线AI推荐应用、超大规模Docker实战、 Buy+VR购物背后的快速交付、数字大屏的研发经验等。
36759 0
|
存储 分布式计算 大数据
80后阿里P10,“关老板”如何带着MaxCompute一路升级?
我是个幸运的人。虽然幸运不能被复制,但是眼光和努力可以。 “我是一个兴趣驱动型的人,职业生涯总的来说,还算挺幸运的,做自己感兴趣的事情,走上IT这一行……” 特别久以前,大概初中的时候有了自己的第一台电脑,大名鼎鼎的486,带一个数学协处理器,主频266MHz,内存有4MB。”
5701 0