支付宝双11工程师:半个月升级几十次,峰值到来前紧张到手抖

简介: 蚂蚁金服金融级分布式架构 SOFAStack 获得了“十三五”金融科技产业示范案例奖

前几天,由瞭望智库、《财经国家周刊》共同主办的“第四届(2019)中国新金融高峰论坛”上,蚂蚁金服金融级分布式架构 SOFAStack 获得了“十三五”金融科技产业示范案例奖。

1.png

说起 SOFAStack,它已经在2019年天猫双11中大放异彩,证明了自己。其中,SOFAMesh 覆盖了100%核心支付链路,几十万容器规模,峰值千万QPS……SOFAMesh 已是业界最大的 Service Mesh 集群。

下面,我们就一起来看看 SOFAMesh 在2019天猫双11中发生的那些故事。


“Service Mesh 真稳。”

这次双11大促,将业务搬上了 Service Mesh 的同学们都这么说。

但在双11收官之前,鲁直、齐风等负责支付宝技术架构的工程师们,听到最多的,却不是肯定和鼓励,而是来自四面八方的“退堂鼓”。

尽管结果满分,在等待双11到来前的几个小时里,紧张到“手抖”才是他们真正的备战状态。

2.jpg

毕竟双11全天2684亿交易额依靠的,是来自支付宝自研分布式数据库 OceanBase 每秒峰值6100万次的处理能力,和首次登上大促舞台的 Service Mesh 搭建的全球最大金融级云原生集群。但只有他们最清楚,这样世界级的数字金融运算能力背后,有多少付出和煎熬。

“不行,风险太大,不和你们玩了”

“不行,风险太大,不和你们玩了。”

这是今年双11前,齐风听过最让人丧气的话。

虽然每年的双11大促,支付宝都会提前做足技术准备。但是对于今年大促中,Service Mesh 搭建的全球最大金融级云原生集群首次登上舞台,不仅CTO线的技术同学们高度紧张,来自各方的质疑声,才是最终所有业务登上架构的最大挑战。

作为CTO线系统部的负责人之一,齐风深有所感。

“一直到11月初,还有业务的同学坚持:‘不和你们玩了’。”甚至在更早的时间里,连支付宝的会员和金融网络业务,都差点在架构中下线。齐风也理解所有业务同学,出自责任心的担忧,“毕竟一旦真的出问题,大促就黄了。”

但他和团队很清楚,原本在运行过程当中,一定幅度的抖动和报错,是可以解决和承担的。不过因为是新的架构系统,难免要为所有的不稳定背锅。“当时是在压测的高峰期时,监测到连抖动和较高的报错率,所以就连支付宝会员和金融网络业务,都提出了下线要求。”齐风回忆,这可是件大事。

一旦最基础的会员和金融网络功能下线,新架构面临的,将是接二连三的下线要求,那么承担大促的目标,就成了空谈。

“我们为了加强和业务方的交流和培训,成立了大促项目组,每周都会进行沟通。10月份在西溪园区开会的时候,还定下过类似‘军令状’。”齐风跟会员和金融网络业务的同学约定,在既定的时点内,如果解决不了,就同意下线。

于是两天内,系统部一百多个同学中,分散在各个方向、所有与之相关的人力全都扑在上面,聚焦于解决这个问题。

支付宝中间件服务与框架的负责人鲁直,和团队一起,光是从中秋到国庆期间,经历的 Service Mesh 升级就达到了数十次。

不同的是,以往每一次基础设施的下沉,都会给业务研发团队带来影响。

“像网商银行、蚂蚁森林和农场,都会在这个过程中被推动升级,而某个阶段出现bug的话,就要重新来。”但今年 Service Mesh 的升级过程,会尽可能地减少业务的参与。

可快速的升级,带来的是问题被快速放大。通宵解决就成了团队的家常便饭。

随后为大促进行的压测,一直持续到了双11前——8日的那个周五。“通过模拟下单、到app付款页面,一直在提高峰值,不断去尝试摸到更高点。”

双11临近时“光明顶”内几百人鸦雀无声

其实支付宝经历了过去大促峰值时差点崩溃,如今早已能让大家在当天能够安安稳稳地喝着红酒度过考验。

之所以今年还会如此拼命,大抵是来自于对技术的那份“贪心”。

“今天最好的表现,是明天最低的要求”这是阿里巴巴成立20周年之际,新六脉神剑中的价值观之一,同样也是支付宝的同学们,对技术成就所抱有的心态。

“Service Mesh 从一个 demo 到经历双11考验,其实经历了两年时间。”鲁直表示,虽然过去支付宝的各个功能已经能够良好运行,但能不能在不影响用户顺滑体验的基础上,更加合理地调用资源,甚至降低成本?

于是今年尝试了对资源进行调度。比如当早上7点前准备好蚂蚁森林的使用资源,峰值度过后在8点左右调用补齐到公交、当面付等场景中。

就连在10日晚上22:00的淘宝开奖结束后,资源也经历了多次调配。第二天零点的订单峰值,到一点的尾款开放,差不多到夜里三四点峰值度过趋于稳定时,还要为11日的早高峰、聚划算等需求做好规划和准备。

“当晚我在阿里巴巴西溪园区的光明顶作战室,看上去很冷静,其实我紧张得手都是抖的。”当晚的光明顶,坐着200多位来自各个BU、业务的技术同学,从底层架构到双11的多个环节,大家都在那里共度紧张的时刻。

齐风作为其中一员,整晚都对着数据和切换效果,除了新的技术尝试让他紧张到手抖,作战室的氛围,也让他难忘。

3.jpg

“基本上从10号的23:30开始,一直到11号的1:00,整个光明顶是没有声音的。”齐风身边没有人说话,甚至没有大的响动。零食和大闸蟹都不能在此时引起大家的兴趣,“在那个时间之前大家都已经补充好了,当时很难分心或是放松。”

在另一处作战点——蚂蚁Z空间,鲁直也忙着紧跟实况。“本来计划在双11时买副耳机给自己,AirPods Pro 还有大额券,结果等我熬过峰值时段,回过神想起来购物的时候,券早就被抢空了。”

但回过头在看这一切,鲁直和齐风,包括蚂蚁金服的CTO鲁肃在直播里,都为今年双11支付宝的表现,打了满分。

可攻坚技术的人,从来不安于“满足”。

鲁直认为,结果满分,但过程还能更优化。虽说是错是技术推进绕不开的弯路,“但是比如快速更新会加快和放大问题暴露的情况,我们能不能提早预料到,就是值得更加提升的部分。”

“这些资源调配和切换,今年靠的都是系统自动完成,每次切换,只用三分多钟。”但齐风觉得,这个动作,还能完成得更快。甚至不仅仅是服务于大促,“让大促技术日常化,才是我们真正的目标。”

金融级分布式架构 SOFAStack 已经登陆阿里云官网对外售卖~

相关文章
|
4月前
|
安全 NoSQL Java
单体项目偶遇并发漏洞!短短一夜时间竟让老板蒸发197.83元!
单体项目偶遇并发漏洞。故事基于真实事件而改编,如有雷同,纯属巧合~
倒计时1.5小时 直击阿里双十一作战现场
倒计时1.5小时 直击阿里双十一作战现场
倒计时1.5小时  直击阿里双十一作战现场
|
Web App开发 编解码 移动开发
1.5小时成交破20亿!淘系又一次稳稳扛住了大流量!
6月1日零点,2020年天猫618强劲开局。 开场刚过1小时29分,熬夜看淘宝直播的“宝宝们”带来的成交额达到20亿元,远超去年同期!
1.5小时成交破20亿!淘系又一次稳稳扛住了大流量!
|
人工智能 供应链 双11
这届打工人不一样!剁手消费之外,还在天猫双11抢网课投资自己
天猫双11预售首日,买网课的人比去年增加了649%
这届打工人不一样!剁手消费之外,还在天猫双11抢网课投资自己
|
Web App开发 边缘计算 缓存
停课不停学,优酷直播如何将网课点名延迟降到0.6s?
受疫情影响,各中小学校延迟开学,优酷宣布发起“在家上课计划”,为无法到校教学的老师们提供免费的直播授课工具,直播课程将于2月10日开始陆续上线,在直播过程中如何提升和保障流畅的互动体验?优酷直播流媒体团队做了低延时流媒体技术的探索实践,实现了在用户体验不下降的基础上,让主播与主播延时<300ms,播与粉丝延时<600ms,解决了直播间各类互动问题。接下来,阿里文娱的乾戒将具体介绍探索过程。
1452 0
停课不停学,优酷直播如何将网课点名延迟降到0.6s?
|
机器学习/深度学习 供应链 算法
春节剁手的人太少?看手淘怎么做用户增长
小叽导读:本文介绍以手淘促活为目的的全链路智能投放算法框架,该框架目前接入以 Pagani 为核心的全链路运营平台,使用用户意图识别算法圈选出目标人群,借助物料智能推荐和权益动态面额等算法实现全链路上用户的个性化触达干预。以2019春节手淘促活为例,介绍权益智能投放框架的设计思路和实际应用。
1511 0
春节剁手的人太少?看手淘怎么做用户增长
给做技术的换一道菜尝尝:一月冲皇冠?凶残级淘宝店主,无法阻挡的爆款名城!
最近很多朋友应该注意到了这个店“爆款名城”:http://shop67642050.taobao.com/ 这个店做女装,基本上一个月上了皇冠,全店全部43个宝贝,2011年7月1日开的店铺,并没有参加淘宝活动,我在前一段时间注意这个店的时候这个店还是一钻,然后后面就像打了鸡血大概以一个星期一个钻石的速度在增长,很多人觉得不可思议,数据如下: ! 很恐怖的销量吧,基本上是全店爆款!我在前一段时间大概观察和分析了这个店铺宝贝的成长过程,并没有看到太大的异常和暗箱操作,基本每个宝贝都是以不断飙升爬山一样的销量数据线在成长。
1223 0
|
算法 Linux 数据库
12月13日云栖精选夜读 | 干货 :5个提醒,让你远离“数据呆”
随着数据积累得越来越多,数据获取成本不断降低,人们开始走向另一个危险的极端,那就是任何事情都要看数据,任何决定都去依赖数据。这种风气培养出了越来越多的“数据呆”。作为一个数据分析师,我是非常反对“唯数据论”的。
2285 0
|
Web App开发 安全 网络安全