双11阿里云技术负责人杨旭:大考亦从容

简介: 杨旭,花名杨曦,这是他的第六个双11。 从2012年开始,阿里云通过云计算技术为天猫双11提供计算服务。 3年前,杨旭开始作为双11阿里云技术负责人,负责搭建全球最大的混合云结构,把 “双11”的电商业务和技术场景在阿里云上实现,并保障这个混合云在双11当天能够满足全球客户的购物需求。

杨旭,花名杨曦,这是他的第六个双11。

从2012年开始,阿里云通过云计算技术为天猫双11提供计算服务

3年前杨旭开始作为双11阿里云技术负责人,负责搭建全球最大的混合云结构,把 “11”的电商业务和技术场景在阿里云上实现,并保障这个混合云在双11当天能满足全球客户的购物需求。 

11月11日晚上零点整,海量峰值如期而至,项目室里的每一个人都屏息静气的看着陡增的峰值。

几个小时以后,第一波峰值顺利度过,项目室里又恢复了喧闹。 

“每一年的双11,都是一次赶考。”杨旭一边喝可乐,一边与记者聊了起来。

72acaddbdf84a4fd00af0698bfef7c46de973011

杨曦

充分准备是成功的关键

阿里云的技术支持,早在一年前就开始准备了。去年12月中旬左右,杨旭就筹备召开了阿里巴巴的2017的双11策划会,制定了工作目标,详细每个单元的产品技术方案验证。通过多次测试以及全链路的压测,确保所有的方案和实施都能满足双11的业务需要。

在杨旭看来,这其中的每一项工作关系到今年11的阿里云表现每一项工作都是一道考题。“特别下半年压测的时候,只有那么几次机会,如果不成功可能要影响整个双11项目结果,压力大的时候,经常半夜睡不着觉,梦里都在记录解决方案。”

有一次遇到一个业务问题没解决,担心影响到双11的交易成功率,整个团队基本一个星期通宵处理问题,优化升级系统。杨旭说,为了支持这个项目,团队很多同事也都牺牲很大。压测期间,网络业务线抽调的一位同事整整48小时没有睡觉解决完问题回家,才想起2天前准备给妻子过生日的蛋糕还藏在卧室的衣柜里,打开柜门一看,蛋糕早已融化。有时候问题紧急,常常相关业务的同事半夜从家里来现场支持。“阿里云的双11团队,这是一只铁军”,杨旭感慨的说。

从2012年的最小单元验证开始,阿里云不断迭代优化,2017年,已经成长为“应用+存储+缓存+数据库+网络”的全业务上云的混合云解决方案,可以有效应对处理双11这样的脉冲计算

 1d629e1fcd946898213a33cb7a3f1dcfb49bd371

云化架构使多个数据中心像一台计算机一样来管理,可以跨多个不同的平台来调度业务发展所需的资源,构建混合云以极低成本拿到服务器,通过混合部署大幅提升资源利用率,支撑系统容量。在今年双11,阿里交易峰值再创新高达到32.5W笔/秒,这背后是靠云化架构在支撑,得以真正实现弹性资源平滑复用、任务灵活混合部署。

有了阿里云的保驾护航,杨旭表示,距离11的成功更近了一步 

谈笑间方显大将风范

早在今年9月底,杨旭就带领队伍进了阿里巴巴西溪园区的作战室。11月9日晚上20点,在1号楼阿里云的双11项目正式拉开帷幕。 

顶层的作战室里,杨旭带领着这个位于全球各地,共百余人的队伍,在双11的24小时保障视频云、图片云、电商云、金融云、物流云的正常运转 

累了,团队的同事就找个凳子,或者按摩椅睡上1-2小时,这个时候,业务部门的就会负责这块工作的其他同事顶上,保证双11期间阿里云上所有业务都有人实时盯守。 

“所有人都有人轮换,只有我是10号晚上八点进去,11号凌晨才能出来。”杨旭笑着告诉记者。“这不仅仅是阿里云的项目,更是阿里巴巴项目全国人民,甚至全球人民狂欢购物节,不能出一点差错。”。 

阿里云的能力虽然让杨旭信心十足,但今年的大考,又比往年更不容易。 

零点将至,虽然有些疲惫,但杨旭似乎越来越有信心,甚至成为了项目室情绪的调动者。

“大家11的购物车都满了吗?”杨旭的这个问题,让项目室里七嘴八舌起来。

一切似乎尽在掌握中,直到零点将至,氛围开始变得严肃起来。 

零点时分,大促正式开始,不断的有人在小声报出各个指标。 

“水位正常!”

“资源正常!”

“核心链路畅通!” 

这是最紧张的时刻,然而杨旭告诉记者。

“养兵千日,用兵一时,这个时候我是最放心的人。” 

2017年天猫双11购物狂欢节开场仅11秒交易就额破亿,3分钟突破100亿,6分钟超200亿,24小时后成交额定格于1682亿元。今年交易峰值32.5万/秒,支付峰值25.6万/秒,比去年增长超1.1倍,再次刷新全球纪录。

 e5a82215cc49318751bb24d374afbc7fe580a7da

 脉冲计算

在持续高压力冲击下,整个双11期间阿里云表现坚如磐石,各项技术指标也再次刷新世界纪录。直播支撑了4000万用户观看晚会,CDN提供80T的访问加速带宽,混合云提供了将近100万弹性计算资源调度,存储提供了340P的图片存储和2.3万亿文件,物流云全天支撑订单流转8亿+,ApsaraDB数据库最高QPS达到554万HTTPDNS在承载上千亿次日解析量的同时保持了平均10ms以下的低响应延迟……

这一串串华丽数字的背后,作为整个天猫商家的基石,阿里云是如何保障在零点洪峰来临时候稳定、安全和顺畅?

杨旭认为,优秀的产品和技术是阿里云制胜的法宝,举几个例子

直播技术:窄带高清2.0技术,用户观看质量上以360P带宽可以达到480P清晰度,480P带宽可以达到720P清晰度,同样清晰度下带宽节约30%,H.265相当比H.264为用户节约30%带宽。

计算能力:通过对虚拟化技术的优化,让极限情况下虚拟机的计算能力和物理机保持一致后续阿里云将进一步挖掘产品的计算能力。阿里云还推出了神龙服务器,通过异构计算彻底将虚拟化损耗降为0。

实例存储:通过结合SPDK+DPDK减少IO访问路径,可以将单机的IOPS提高到210w,满足大计算、重IO的高端用户场景。

CloudDBA产品:通过自动化,自助化小白诊断,实现物流云等商家的全覆盖,实现事务分析,TOP SQL,SQL Review,死锁分析等全场景自动化,无论是给客户,还是给阿里云自己都节约成本,提升用户体验。

大数据:线下推出感知零售产品,通过数据化向智能化的转变,让数据也有情感,提升新零售的转化率。

用最好的技术回馈社会

阿里云的技术每年都在突飞猛进的发展,即便作为一名资深技术人员,杨旭每年也会被新的技术、新的产品所深深震惊,比如今年双11阿里云部署网络产品,使用规模非常大,对性能的支持力度很大,这在全球也是领先的水平。

“马总说过双11是锻炼技术的。我们云上的技术方案,新技术的尝试,新的产品都会先自己验证,然后再给客户用。特别是通过全球唯一双11这种极端环境对新技术压测,还有每年多次大型活动和项目的锤炼我们的产品和技术都有最好的保证然后我们会沉淀下来,放在公有云上再提供给客户使用” 杨旭时刻谨记,阿里巴巴客户永远是第一位的。 

阿里云双11混合云架构,是全球最大的混合云架构,具备极致的弹性调度管控能力,杨旭认为,这套成功的经验可以快速满足公司国际化战略对全球资源部署的调度。 

在杨旭看来云计算不是简单的物理机虚拟化,更是一种计算和服务能力的体现,目前云上的产品大多是阿里云内部精华技术的沉淀,希望大家以一种开放的心态来用拥抱云计算,大胆尝试使用新技术,一定有意想不到的收获

正是因为每个团队在这几个月里默默的努力和不放过每一个细节,才让今年双11变成史上最轻松的双11。 

“我们不仅完美的支撑的阿里巴巴的主战场,也可以骄傲的说我们用最完美的技术支撑了全社会的狂欢,我们阿里云客户的狂欢!今年的双11,非常完美”。在11月12日凌晨2点的阿里巴巴西溪园区,连续值守52小时后杨旭顺利完成了今年双11混合云的接入和保障任务,他揉着双眼,轻松地笑着说 

技术扩展着商业的边界,商业的效率,创造着生活的美好前行,双11的技术能力,终将化为未来社会的常态。以阿里云为代表的云计算行业,也已是社会的基础设施,正如所有的超级工程一样,一个个工程师们的努力,将异想天开的想象力变成了现实。这样的故事在过去的一百年,两百年,一千年,两千年间不断发生,才让人类得以创造出任何生命都未曾创造出的奇迹,这个奇迹被人们称为:文明。

相关文章
|
机器学习/深度学习 人工智能 算法
AI加速引擎PAI-TorchAcc:OLMo训练加速最佳实践
阿里云机器学习平台PAI开发的Pytorch训练加速框架PAI-TorchAcc已接入最新开源的大语言模型 OLMo。在保证模型效果和易用性的前提下,PAI-TorchAcc相对 PyTorch 性能在 OLMo 1B 上加速比达到 1.64X,在 OLMo 7B 上加速比达到 1.52X。本文分析了 PAI-TorchAcc 的性能收益来源。
|
运维 安全 Cloud Native
Apsara Stack 技术百科 | 混合云全景智能化观测平台Sunfire
在企业数字化转型的浪潮中,核心业务的上云和迁云无疑是转型过程的重中之重,企业对于数字安全性及等保合规层面的需求也日益强烈,混合云成为诸多大型政府企业客户上云迁云的首选方案。随着企业云上业务的复杂化,云上云下技术栈的多样化,以及云上运维组织规模的扩大化,云上业务的稳定性和连续性面临着巨大的挑战。
4121 0
Apsara Stack 技术百科 | 混合云全景智能化观测平台Sunfire
|
JavaScript
VUE element-ui之上传身份证照片正反面详细代码
VUE element-ui之上传身份证照片正反面详细代码
1833 0
VUE element-ui之上传身份证照片正反面详细代码
|
存储 数据采集 运维
阿里巴巴DevOps实践指南(二十四)| 智能运维
智能运维( AIOps )是依托于阿里巴巴 DevOps 经验沉淀而来的智能化运维平台,通过运维大数据的积累,以及算法团队多种算法的校对,我们将运维提升到新的高度,通过 AI 来帮我们查看数据、判断异常、决策运维操作,形成监、管、控一体化的运维平台。
阿里巴巴DevOps实践指南(二十四)| 智能运维
|
9月前
|
SQL 分布式计算 编译器
流批一体向量化引擎Flex
本文整理自蚂蚁集团技术专家刘勇在Flink Forward Asia 2024上的分享,聚焦流批一体向量化引擎的背景、架构及未来规划。内容涵盖向量化计算的基础原理(如SIMD指令)、现有技术现状,以及蚂蚁在Flink 1.18中引入的C++开发向量化计算实践。通过Flex引擎(基于Velox构建),实现比原生执行引擎更高的吞吐量和更低的成本。文章还详细介绍了功能性优化、正确性验证、易用性和稳定性建设,并展示了线上作业性能提升的具体数据(平均提升75%,最佳达14倍)。最后展望了未来规划,包括全新数据转换层、与Paimon结合及支持更多算子和SIMD函数。
670 9
流批一体向量化引擎Flex
|
存储 缓存 Docker
docker: No space left on device处理与迁移目录
通过以上方法,可以有效地管理 Docker 的磁盘使用情况,并确保 Docker 运行环境的稳定性和效率。
1276 34
|
存储 人工智能 弹性计算
一文了解一云多形态
【一云多形态】专场由阿里云弹性计算产品解决方案总监杨旭、阿里云云盒产品专家曾银飞以及邀请到了武汉迈异信息科技有限公司CEO张哲、上海复星健康科技 (集团) 有限公司技术总监陈清阳四位讲师共同出席分享。
|
存储 人工智能 程序员
阿里云基础设施技术分享之走进浙大活动圆满结束
2024年12月13日,阿里云技术专家走进浙江大学,举办了一场关于AI与云计算的前沿技术宣讲活动。作为浙江大学计算机学院“人工智能+”创新创业大讲堂的第十五期,活动吸引了大量师生参与。四位专家分别就AI编程、超智融合、云计算网络及应用部署进行了深入分享,激发了师生对未来科技发展的无限憧憬。
|
存储 关系型数据库 Java
数据COOL谈第3期
本文整理自阿里巴巴大淘宝技术部双12队长朱成(锡泽),阿里巴巴业务平台双11队长徐培德(裴度),阿里巴巴数据库双11队长陈锦赋(智盛),InfoQ主编王一鹏,在数据COOL谈第3期的分享。
|
存储 缓存 网络协议
DPDK:UDP 协议栈的实现
DPDK:UDP 协议栈的实现

热门文章

最新文章