12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办。(https://yq.aliyun.com/promotion/139)
12月6日晚20:00,来自阿里巴巴的资深架构师林伟将在在线论坛上发表《阿里大规模数据计算与处理平台》的演讲。
今年双11,阿里云大数据平台扛住了巨大的技术挑战,主要体现在两方面:实时数据处理技术方面,包括日志数据和交易数据的实时采集、分发、计算,最终在媒体直播大屏上实时渲染和展示,整个链路的稳定性保障压力是巨大的。双11期间阿里云实时
大数据系统完成了三项世界级的挑战:1.低延时,从零点第一笔交易发生,到媒体大屏上显示出统计结果,整个处理过程仅延时仅几秒钟;2.高性能、高吞吐,最高处理速度达到千万条/秒,流计算的整体性能比去年提升了N倍;3.高可用,全天服务不降级
、无故障,扛下了高峰期所有的流量。而在超大规模的离线数据处理方面,双11期间,阿里云MaxCompute扛下了单天数据处理峰值上百PB,以及百万级的调度作业,这对于作业调度、计算性能、系统稳定性等都是极大的考验。本次分享,林伟将为大家
介绍到双11前中后大数据计算平台对于整个双11的成功提供了哪些不可或缺的支持。
为了帮助大家更好地了解讲师及议题,评估本次演讲,云栖社区对讲师进行了采访。
受访嘉宾:
林伟,阿里巴巴大数据事业部资深架构师,原微软Cosmos/Scope核心开发人员, 现负责阿里巴巴大数据计算平台总体架构,该平台是阿里巴巴核心计算分析平台,承担阿里内部绝大数计算任务。林伟作为一名分布式系统研究员,在国外一流会议OSDI, SIGMOD, NSDI, VLDB发表多篇论文。是大数据存储,分布式计算,数据查询优化,分布式调度等领域的专家。具有10多年研究和开发经历,分别打造微软和阿里内部大型数万台级别数据中心的计算平台。
以下为采访正文:
云栖社区: 可以简要介绍下双11期间阿里云大数据平台具体承接了哪些业务吗?
林伟:阿里云大数据平台在双11承担了海量数据分析服务,各个部门会在计算平台上对于相关数据进行深入分析从而保障双11成功进行,比如价格监测,是否是真正的实惠,仓储预算,用户群体画像,行为分析,交易风险控制等等
云栖社区:“今年双11,阿里云实时大数据系统完成了三项世界级的挑战”,性能显著提升的背后,阿里云大数据平台在技术上做了哪些关键的优化?
林伟:双11当天,大数据增量计算平台Galaxy承担了海量数据实时统计计算,最难的是如何保证分类的实时统计和汇总统计之间数据的一致性。我们在实现完整在分布式场景里支持可逆操作的增量计算,这个在行业内也是领先的
云栖社区:随着业务的飞速发展,你认为阿里云大数据平台的下一步发展的方向将是什么呢?
林伟:下一步的发展会聚焦在如下方向:
a) 低成本,高性能:我们只能继续提供计算平台性能才能支持海量数据处理,下降大家享用大数据分析带来成本。使得大数据分析能够走进平常百姓。这个会要求更好的更强的查询优化器,现在都在这个方向花大力气;
b) 机器学习: 更加强大的机器学习框架,能够利用更好各种计算资源比如GPU/FPGA等等来加速机器学习过程;
c) 更加整合多种计算框架使得用户业务能够把多种计算方式有机整合在一起,比如流计算,离线,graph,机器学习等等;
d) 开发者友好:更好编程,编译,调试,更好进行实验等等。
云栖社区:在你看来,分布式系统架构设计应该具备哪些关键特性?有哪些原则可遵循?可否分享下思路经验?
林伟:架构设计就是如何在有限的环境中,在有限性能的硬件条件上,做到良好的平衡,使得业务主要场景取得最好性能,具体可以参考我在今年云栖大会的分享。
感兴趣的朋友,可以参考阅读本篇文章:https://yq.aliyun.com/articles/63155, 本文PPT来自林伟10月15日在2016年杭州云栖大会上发表的《我看分布式系统发展和阿里实践》。
云栖社区:在本次在线峰会上,该内容适合哪些听众?
林伟:希望从事实时统计的开发者(Galaxy部分),其他部分适合所有用户
云栖社区:对于架构师的成长,有哪些建议或者经验分享?以及请你推荐一本最喜欢的技术书籍(书单更佳)
林伟:多看OSDI, SOSP, ATC, SIGMOD,VLDB等paper,特别是来自于产业界的paper。同时多读code(现在开源code很多,是一个很好的素材),最好带着实际问题去改写。通过paper去了解人们进行这个选择背后的理由。
“2016双11技术创新“在线论坛专题:https://yq.aliyun.com/promotion/139
论坛火热报名中,成功预约报名,享受峰会结束后全套资料下载并可参加抽奖。