专访阿里巴巴林伟:三项世界级挑战背后的思考、实践和经验

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 今年双11,阿里云大数据平台扛住了巨大的技术挑战,主要体现在实时数据处理技术以及超大规模的离线数据处理两方面,来自阿里巴巴的资深技术专家林伟将为大家介绍双11前中后大数据计算平台对于整个双11的成功提供了哪些不可或缺的支持。
12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云云栖社区联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办。(https://yq.aliyun.com/promotion/139

12月6日晚20:00,来自阿里巴巴的资深架构师林伟将在在线论坛上发表《阿里大规模数据计算与处理平台》的演讲。

今年双11,阿里云大数据平台扛住了巨大的技术挑战,主要体现在两方面:实时数据处理技术方面,包括日志数据和交易数据的实时采集、分发、计算,最终在媒体直播大屏上实时渲染和展示,整个链路的稳定性保障压力是巨大的。双11期间阿里云实时 大数据系统完成了三项世界级的挑战:1.低延时,从零点第一笔交易发生,到媒体大屏上显示出统计结果,整个处理过程仅延时仅几秒钟;2.高性能、高吞吐,最高处理速度达到千万条/秒,流计算的整体性能比去年提升了N倍;3.高可用,全天服务不降级 、无故障,扛下了高峰期所有的流量。而在超大规模的离线数据处理方面,双11期间,阿里云MaxCompute扛下了单天数据处理峰值上百PB,以及百万级的调度作业,这对于作业调度、计算性能、系统稳定性等都是极大的考验。本次分享,林伟将为大家 介绍到双11前中后大数据计算平台对于整个双11的成功提供了哪些不可或缺的支持。

为了帮助大家更好地了解讲师及议题,评估本次演讲,云栖社区对讲师进行了采访。

受访嘉宾:
林伟,阿里巴巴大数据事业部资深架构师,原微软Cosmos/Scope核心开发人员, 现负责阿里巴巴大数据计算平台总体架构,该平台是阿里巴巴核心计算分析平台,承担阿里内部绝大数计算任务。林伟作为一名分布式系统研究员,在国外一流会议OSDI, SIGMOD, NSDI, VLDB发表多篇论文。是大数据存储,分布式计算,数据查询优化,分布式调度等领域的专家。具有10多年研究和开发经历,分别打造微软和阿里内部大型数万台级别数据中心的计算平台。
625643270b3e747d2e092be8d4c9b39d8cc15705

以下为采访正文:

云栖社区: 可以简要介绍下双11期间阿里云大数据平台具体承接了哪些业务吗?
林伟:阿里云大数据平台在双11承担了海量数据分析服务,各个部门会在计算平台上对于相关数据进行深入分析从而保障双11成功进行,比如价格监测,是否是真正的实惠,仓储预算,用户群体画像,行为分析,交易风险控制等等

云栖社区:“今年双11,阿里云实时大数据系统完成了三项世界级的挑战”,性能显著提升的背后,阿里云大数据平台在技术上做了哪些关键的优化?
林伟:双11当天,大数据增量计算平台Galaxy承担了海量数据实时统计计算,最难的是如何保证分类的实时统计和汇总统计之间数据的一致性。我们在实现完整在分布式场景里支持可逆操作的增量计算,这个在行业内也是领先的

云栖社区:随着业务的飞速发展,你认为阿里云大数据平台的下一步发展的方向将是什么呢?
林伟:下一步的发展会聚焦在如下方向:
a) 低成本,高性能:我们只能继续提供计算平台性能才能支持海量数据处理,下降大家享用大数据分析带来成本。使得大数据分析能够走进平常百姓。这个会要求更好的更强的查询优化器,现在都在这个方向花大力气;
b) 机器学习: 更加强大的机器学习框架,能够利用更好各种计算资源比如GPU/FPGA等等来加速机器学习过程;
c) 更加整合多种计算框架使得用户业务能够把多种计算方式有机整合在一起,比如流计算,离线,graph,机器学习等等;
d) 开发者友好:更好编程,编译,调试,更好进行实验等等。

云栖社区:在你看来,分布式系统架构设计应该具备哪些关键特性?有哪些原则可遵循?可否分享下思路经验?
林伟:架构设计就是如何在有限的环境中,在有限性能的硬件条件上,做到良好的平衡,使得业务主要场景取得最好性能,具体可以参考我在今年云栖大会的分享。
感兴趣的朋友,可以参考阅读本篇文章:https://yq.aliyun.com/articles/63155, 本文PPT来自林伟10月15日在2016年杭州云栖大会上发表的《我看分布式系统发展和阿里实践》。

云栖社区:在本次在线峰会上,该内容适合哪些听众?
林伟:希望从事实时统计的开发者(Galaxy部分),其他部分适合所有用户

云栖社区:对于架构师的成长,有哪些建议或者经验分享?以及请你推荐一本最喜欢的技术书籍(书单更佳)
林伟:多看OSDI, SOSP, ATC, SIGMOD,VLDB等paper,特别是来自于产业界的paper。同时多读code(现在开源code很多,是一个很好的素材),最好带着实际问题去改写。通过paper去了解人们进行这个选择背后的理由。

“2016双11技术创新“在线论坛专题:https://yq.aliyun.com/promotion/139

8767e427e77ab7c119d0a6383f1416e2ba79f8cb

4da97b2a6e9faa41666e4095a723971bc69b691e

论坛火热报名中,成功预约报名,享受峰会结束后全套资料下载并可参加抽奖。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
11月前
|
机器学习/深度学习 人工智能 云计算
展望技术圈的2024:技术革新的未来趋势
在过去的2023这一年,我们见证了技术圈许多令人印象深刻的技术创新,它们不断改变着我们的工具和工作方式,也让我们混迹于技术圈的这些普通开发者们看到了技术创新带来的新挑战和新机遇,虽然时间一去不复返,但是技术是随着时间的推移而不断进步和完善,这也是我们唯一值得期待的事情。而当我们展望2024年,作为技术潮流前沿的开发者,我们不禁思考哪些技术将在未来迎来新的革命,哪些技术又是我们程序开发者的新的希望。那么本文就来简单分享一下可能的技术发展趋势,其中包括人工智能与机器学习的进一步发展以及云计算领域可能出现的变革,and so on。
301 2
展望技术圈的2024:技术革新的未来趋势
|
11月前
|
消息中间件 存储 缓存
阿里P8架构师带你“一窥”大型网站架构的主要技术挑战和解决方案
传统的企业应用系统主要面对的技术挑战是处理复杂凌乱、千变万化的所谓业务逻辑,而大型网站主要面对的技术挑战是处理超大量的用户访问和海量的数据处理;前者的挑战来自功能性需求,后者的挑战来自非功能性需求;功能性需求也许还有“人月神话”聊以自慰,通过增加人手解决问题,而非功能需求大多是实实在在的技术难题,无论有多少工程师,做不到就是做不到。
|
Cloud Native 架构师 中间件
2022 云原生编程挑战赛圆满收官,见证冠军战队的诞生
11 月 3 日,天池大赛·第三届云原生编程挑战赛在杭州云栖大会圆满收官。三大赛道18大战队手历经 3 个月激烈的角逐,终于交上了满意的答卷,同时也捧回了属于他们的荣耀奖杯。
2022 云原生编程挑战赛圆满收官,见证冠军战队的诞生
《程立:技术创造新商业 云时代研发效能的机遇和挑战》电子版地址
程立:技术创造新商业 云时代研发效能的机遇和挑战
104 0
《程立:技术创造新商业 云时代研发效能的机遇和挑战》电子版地址
|
存储 机器学习/深度学习 人工智能
独家专访阿里巴巴高级研究员吴结生:我经历的三个重大决策
云原生正在重新定义存储,而存储只是基础软件领域中的一环。本期 C 位面对面,我们有幸邀请到了阿里巴巴高级研究员,阿里云智能存储负责人吴结生(Jason Wu),他亲历了阿里云存储技术高速发展的 8 年,此次,他将与 InfoQ 共同解读存储技术的现在与未来,以及他本人在职业生涯中面临的一些抉择和个人成长感悟。
676 0
独家专访阿里巴巴高级研究员吴结生:我经历的三个重大决策
|
运维 监控 数据可视化
一文详解网易数帆数据生产力方法论
2021 年,网易数帆大数据团队正式提出数据生产力的理念,数据生产力从广义上讲,是指“通过使用数据,带来组织生产力的提升”;从狭义上讲,是指“数据采集、清洗、加工、可视化等数据处理和数据治理的软件生产能力以及持续运营能力”。
339 0
一文详解网易数帆数据生产力方法论
|
人工智能 算法 数据挖掘
服务学术共同体创新全链路,清华大学温江涛团队推出新一代科技创新评价和支撑平台「Phocus」
在计算机领域,有一个广为人知的故事:1973 年,在施乐公司帕克研究中心(The Xerox PARC),第一台个人电脑 Alto 诞生了,这台电脑首次使用了桌面比拟(Desktop metaphor) 和鼠标驱动的图形用户界面(GUI)技术。接下来的几十年,Alto 极大地影响了个人电脑的设计,包括苹果的 Macintosh。
300 0
|
Dragonfly Kubernetes Cloud Native
阿里巴巴云原生的 2020,注定不凡的一年
回顾阿里巴巴云原生的 2020 年。
阿里巴巴云原生的 2020,注定不凡的一年
|
机器学习/深度学习 传感器 人工智能
带你读《创新之巅: 未来十年重构商业的六大战略性技术》第一章未来十年重构商业的 六大技术1.1AI是什么,为什么它很重要…
《创新之巅: 未来十年重构商业的六大战略性技术》第一章未来十年重构商业的 六大技术1.1
下一篇
oss创建bucket