考拉上“云”的431天:经历了怎样的“脱胎换骨”?

本文涉及的产品
应用实时监控服务-用户体验监控,每月100OCU免费额度
性能测试 PTS,5000VUM额度
应用实时监控服务-应用监控,每月50GB免费额度
简介: 今年双11,是考拉海购加入“阿里动物园”的第二年,其成绩单备受外界关注。加入阿里431天,考拉交出了一张漂亮的成绩单:会员规模增长104%,刷新过往双11纪录。很多人不知道,增长来之不易——2019年9月,考拉被阿里正式收购后,经历了一场“脱胎换骨”:数据库应用架构重新设计、百万级节点的容器集群大规模迁移、数据中心从杭州机房迁移到上千公里之外的张北、从基础组件到中间件全面拥抱云原生……

image.png

考拉上云,打造出一间云原生样板间。

今年双11,是考拉海购加入“阿里动物园”的第二年,其成绩单备受外界关注。

加入阿里431天,考拉交出了一张漂亮的成绩单:会员规模增长104%,刷新过往双11纪录。

很多人不知道,增长来之不易——2019年9月,考拉被阿里正式收购后,经历了一场“脱胎换骨”:数据库应用架构重新设计、百万级节点的容器集群大规模迁移、数据中心从杭州机房迁移到上千公里之外的张北、从基础组件到中间件全面拥抱云原生……

image.png

2019年9月29日,阿里为考拉举办了入园仪式

在这一年里,黑卡会员们买买买的同时,考拉悄无声息完成了一场数字基础设施的彻底换血。

如今,全站业务全部平稳过渡到阿里云后,考拉已栖息在一棵长在“云端”的参天大树上。

一场大规模快速迁移

阿里收购史上,考拉体量不算最大,情况却很特殊。

网易只出售了考拉的业务,却没有出售原本支撑考拉的数字软硬件设施,比如物理机房、云端数据库等均不在其中。

因此,收购完成之后,考拉核心数据势必迎来一场大规模快速迁移。

根据阿里预定的计划,从2019年9月6日到2020年3月31日,为“考拉入园”后的半年整合期,考拉需要完成所有数据迁移,且业务不停服,一年之内,考拉需要完成云原生的战略升级。

焦灼的电商战中,业务发展等不起,但这样的速度,在阿里历史上前所未有。

“原本的历史数据和业务应用,就像是考拉的身体,现在我们需要给它换一个新的‘大脑’,重新连接起原本的数据,但不能影响它正常活动。”阿里云资深架构师吴明比喻道:“要以最快速度和最低成本完成这一任务,考拉上云是最佳方案。”

image.png

吴明(左三)和阿里工程师们

这是一场与时间赛跑的迁移,阿里和考拉都出动了最出色的工程师。

然而,第一个问题就成了难关。

考拉数据迁移的目的地远在河北省的张北数据中心,按照惯例,大规模数据迁移,都需要拉一根实体的网络专线传输数据,如果从杭州铺设专线到河北,施工成本以千万计,关键工程量还特别浩大,根本无法在半年里完成。

阿里工程师想到了一个好办法——过渡时期,可以先将阿里云杭州数据中心做接入口,然后在云上做内部链路,云端跳转之后,考拉只需从网易机房铺设一条通到阿里云杭州数据中心的专线,就可以把数据迁移去张北。

image.png

张北数据中心机房

“最后只拉了5公里专线光纤,工期一周,还把原本几千万的成本压缩到了几千元。”考拉上云架构师伏见说。

很快,工程师们又遇到了新问题。

数据迁移要求打通阿里与网易的内网,可是两家公司的防火墙都很结实,根本无法同时访问两家的内网账号。

阿里云为此孵化了一个新产品——为考拉量身定制了独立的虚拟私有云(VPC),既可以让两家公司的网络流畅互通,又能确保数据安全。

“这种全新的产品,原本开发周期需要一两个月,但是为了让考拉如期完成迁移,我们只花了一两周就完成了开发。”吴明说。

“如果是线下机房,涉及到两家公司的安全方案,很难实现这样的模式,解决这一问题,也是得益于阿里云可以快速灵活配置VPC的能力。”伏见说。

image.png

2019年11月12日,阿里巴巴集团董事局主席兼CEO张勇来到宁波保税区的考拉1号仓

网上协同挺过最关键时刻

今年1月底,考拉进入了紧张的数据迁移内测环节。

数据迁移一旦正式启动,顺利的话只需三四个小时,但要确保过程万无一失,前期需要花几个月测试和演练,从虚拟流量到真实流量,确保规避所有问题,才能正式启动。

紧要关头,疫情来了,600多位参与数据迁移的考拉工程师,春节之后被迫开始“云办公”。

“年初五就有同事打电话问我,年后大家不能去公司怎么办,要不要延迟数据迁移的时间?”伏见回忆。

伏见明白,一旦迁移推迟,考拉就会错过今年第一波的3.8女神节大促,还要延长与网易机房的合约期限,导致成本上升。

image.png

大家在“云办公”时,还不忘加油打气

“‘云上协同’有困难,但迁移不能延迟,无论如何也要顶着压力扛过去。”伏见说。

云办公的时间里,伏见成了最忙碌的“电话接线员”,有时候同时要开三个会议,手机开一个,电脑同时开两个。

其他工程师大抵如此,都是接入多个会议持续通话,以保持“云办公”时集体操作的协调统一。

数百名工程师在云上协同,哪怕一个环节没确认好或是信息理解不一致,就可能发生误操作,导致迁移后的应用功能出现差错。

2月29日晚,所有测试完毕,考拉全站迁移阿里数据中心进入最后的关键时刻。

当时尚未全面复工,原本灯火通明的阿里西溪园区,大楼内空无一人。

将近凌晨12点,伏见与数据库团队和阿里云的两位工程师来到园区,在漆黑的夜里点亮了大楼里唯一一间办公室。

他们负责在一线第一时间确认考拉数据迁移的执行进度,而考拉其他工程师们,则分散在全国各地,同时加入这场大规模迁移操作,每个人都凝神屏息,默默等待着关键时刻的到来。

image.png

大家制作了自己表情包,在群里相互打气

“当时非常紧张,迁移的操作列表,每一个都非常长,每一个操作步骤后的验证步骤也非常长,需要很多同学配合做出精细化操作。一旦切到阿里云时出现差池,会对用户体验产生直接影响,我们的目标就是零故障,因此必须非常谨慎。”考拉测试质量团队负责人林兮说。

办公室里,伏见盯着大屏上的进度条一点点向前挪动,就像瞭望着一艘夜航巨轮,正在航道灯的引导下驶过暗礁险滩。

“其实演练过很多次,基本上不会出现问题。”伏见相信。3月1日凌晨3点40多分,进度条顺利走完,数据迁移大功告成。

image.png

考拉团队从阿里滨江园区搬到西溪园区前的留念

全站切换至阿里云后,考拉立刻进入验证阶段,一有问题,工程师们迅速跟进解决,1日当天,成功闭环98%以上的问题。

“那天,这个数据在群里同步时,大家都很嗨,这可以算是一次‘零故障’迁移了。”林兮说。

数据搬完家后,考拉立刻开始备战3.8女神节大促,迎接考拉迁移上云后的首个流量洪峰。

image.png

考拉团队总结会后的留影

经过连续几天的压测和紧急扩容,3.8女神节当天,考拉的流量峰值,较2019年双12增长了72%,而运行在云上的考拉如磐石般稳稳地扛住了流量峰值,而且成本比之前大幅度降低。

考拉各业务线也在当天被证明已100%打通,形成闭环。

直到大促结束,吴明团队没有接到伏见的紧急电话,没有消息,就是最好的消息。

每年节省2000万元成本

3月31日,考拉如期从网易机房下线,铺设在网易和阿里之间的5公里光纤专线,在完成历史使命后也顺利拆除。

至此,考拉全面上云、快速入园的任务,获得了里程碑式的成功。

圆满完成第一阶段目标后,考拉开始了全面的云原生之路。

image.png

过去,每到大促前夕,考拉都要提前几个月打申请,临时购买服务器扩容。

如今,借助阿里云的弹性计算,考拉可实现单日内的弹性收缩。

还有同城双活数据中心,考拉过去一直想做。

在同个城市部署两个数据中心的好处在于,可以在一个数据中心发生故障或灾难的情况下,实现用户的“故障无感知”。

考拉曾在2019年做过一套方案,发现建设这个能力需要8个月,成本高达上千万元。

阿里早已尝试过“同城双活”、“异地双活”、甚至“异地多活”,在阿里云原生产品天然多AZ容灾能力下,考拉在一个月内就完成了“同城双活”的能力建设,具备了多AZ容灾能力。

image.png

“工作被‘抢’走了,我还挺高兴的。”这是考拉运维工程师李斌的肺腑之言。

3.8女神节后,考拉用户量大增,却苦了运维的同学。

一直以来,考拉使用自建的ZooKeeper(分布式协调服务),一旦负载增大,某台服务器宕机后,就会自动选举新的服务器,这个过程中无法对外提供服务。

宕机伴随的警报声,可能发生在任何时间节点,李彬不止一次在凌晨恢复数据,而且钉钉群里还有一线业务员“刷屏”式的催促。

image.png

伏见(左)

伏见发现阿里云有一套MSE(微服务引擎),相当一个全托管平台,找阿里云问了两句,对方工程师就拍着胸脯说,“没问题的,以后的运维工作我们都包了。”

阿里云的资源弹性能力和自动化运维技术,预计为考拉每年节省成本近2000万元,同时计算性能提升20%。考拉也不再设立专门的运维团队。

“开箱即用”的云上产品,更像是一种共享经济,而且阿里云这些云产品经过历年双11的打磨,解决过业界最难的问题场景和复杂度。

和阿里云一起吃第一个螃蟹

2019年9月到2020年3月31日,归功于阿里云的成熟产品,“考拉迁云”顺利完成,考拉基础产品负责人玄圈对这一过程的评价是“稳定”,但到了“考拉换树”全面拥抱云原生时,阿里云一些“半定制”产品,却带来了一些新的挑战。

image.png

吴明(左)和玄圈(右前)

在阿里云的PaaS层系统中,有一个名为ARMS(业务实时监控服务)的中间件,可以通过实时监控系统运行指标,评估系统健康状态。

AMRS最大的优点是改造成本低,一行代码就能接入,原本的多数业务也不需要修改。但是ARMS也是个“考拉定制版”的产品,支持全链路压测,上万级节点体量的考拉,是第一个吃螃蟹的“自己人”。

第一次为伏见做ARMS介绍的人,是阿里云架构师涯海,两人一见如故。

考拉第一次接入ARMS时,也没出任何问题。

image.png

考拉团队给涯海(左)送花以表感谢

然而,恰逢考拉“55大促”临近,考拉将100多个应用上线ARMS,没想到却发生意外,顾客购物时偶发无法下单,反复出现“请重试”的提示。

伏见紧急回滚了百余个应用的版本后恢复。

image.png

5月,考拉团队进行压测

发生故障后,涯海立刻从西溪园区赶往滨江园区,亲自给考拉团队道歉。没想到考拉技术负责人朱静波走过来安慰他,“这个主责算我们项目组的,归伏见。”

没想到,涯海后来赶去滨江的次数越来越多,尤其是“99大促”压测,小问题聚集爆发。

压测,就是把大促最高水位的压力,持续不断地在线上系统模拟。

好比一个人平时走200米没有感觉,突然暴走2万米,肾、肝、肺的问题都会在高压下暴露出来。

image.png

涯海(右二)和考拉样板间的同学们

在涯海和伏见看来,早点发现故障是好事。

双方制定了作战方案,例如从灰度环境再到线上环境,分多个批次上线等等。5个月,双方共同解决了200多个问题,ARMS迭代升级50多个版本,终于走到了“老夫老妻”的状态。

image.png

5月28日,考拉海购全面上云

10月,考拉在ARMS上的业务一切稳定,“边开飞机边造引擎”的日子终于告一段落。

考拉也经受了双11大考

很快,考拉又迎来了今年天猫双11的压测,玄圈专门带了几个组长,跑去西溪园区1号楼7层备战双11的“光明顶”,听着双11技术大队长霜波站在台上指挥,“第一轮压测的目标是什么,加多少流量……”

image.png

天猫双11期间,考拉团队的会议

考拉过去也做过双11压测,但玄圈发现,阿里在压测中的功能预演、时光机(双11零点的流量)等功能从前都没用过,“阿里是把双11零点所有的可能性,都压上来了,没有十多年的实战经验,不可能做到。”

10月21日,天猫双11正式开启,考拉也走进了李佳琦直播间,1秒卖出10万张考拉黑卡。

image.png

紧接着是参与11月11日的大促,这也是考拉换树后,第一次以会员电商的身份,参与阿里最大的项目。

11月11日零点刚过,天猫双11的订单峰值就达到58.3万笔/秒,阿里云再次扛住全球最大规模流量洪峰。

阿里巴巴CTO程立表示,继去年核心系统上云后,阿里巴巴进一步云原生化,将每万笔峰值交易的IT成本降低了80%,这些核心技术也正通过阿里云向全社会开放。

image.png

今年双11,云原生帮考拉减少了250台服务器,节约成本约100万/月,沉淀出一套落地实践方案。

考拉在云上的研发效率也大幅提升,例如使用阿里云直播中心服务,考拉快速完成了海外直播服务从0到1的搭建。此外,“爬树TV”、“Like社区”等新功能也相继上线。

image.png

“阿里云能把集团内部的业务完全上云,本身就显示出一种自信。”考拉技术负责人朱静波认为,考拉虽是以样板间身份在做尝试,但云服务能力越来越完善,对考拉和外部企业的技术支持就会越好,“这本身就是一个相互成就的过程。”

作者:王安忆 黄天然
文章来源:天下网商
原文链接:https://mp.weixin.qq.com/s/vzMtxkPTys0a0eM_Bbx-1g

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
运维 前端开发 搜索推荐
大象转身-平台架构如何拥抱业务创新
如果你正在负责一个超大复杂型平台(比如电商、支付、物流)的架构师,且面临各种技术负债(比如架构复杂性、团队协同复杂性),同时业务又面临从平台服务,到场景化创新的转型。那么这篇文章也许对你有收获。
112337 25
|
云安全 人工智能 自然语言处理
|
弹性计算 Cloud Native 小程序
【年终特辑】看见科技创新力量 洞见时代创业精神—企业服务—蓝犀牛搬家:挑战非标化运营模式,云加速服务体验
【年终特辑】看见科技创新力量 洞见时代创业精神—企业服务—蓝犀牛搬家:挑战非标化运营模式,云加速服务体验
182 0
|
存储 弹性计算 运维
Serverless 奇点已来,下一个十年将驶向何方?
基于阿里云全面 Serverless 化的经历,阿里巴巴研究员、阿里云智能云原生应用平台总经理丁宇(叔同)阐述了企业应用架构的演进历程,以及 Serverless 兴起带来的行业变化。
125 0
Serverless 奇点已来,下一个十年将驶向何方?
|
存储 云安全 人工智能
有多难?直击传统行业的“云上再创业”之路
有多难?直击传统行业的“云上再创业”之路
622 0
有多难?直击传统行业的“云上再创业”之路
|
移动开发 监控 前端开发
耕耘大前端技术七年,我的九点思考总结
58 大前端技术服务体系开发七年有余,目前已成为 58 前端的顶梁柱,那么这一顶梁柱是如何是搭建起来的?又将朝向哪个方向发展呢? 本期,我们采访了 58 集团前端技术部负责人李祎,他分享了 58 集团大前端技术服务体系的建设经验,以及他对未来大前端趋势的思考。本文为采访整理文,期待你有所收获~
534 0
耕耘大前端技术七年,我的九点思考总结
|
存储 Cloud Native 关系型数据库
厚积薄发:探寻磐久服务器M系列研发之路
从云栖首发到两次电商流量洪峰考验,阿里云加大底层基础技术的自研逻辑?磐久服务器M系列有何独特技术优势?
厚积薄发:探寻磐久服务器M系列研发之路
|
新零售 双11 云计算
逆势招人,阿里平台做对了什么?
不依靠风口而是创造风口的开拓意识,持续投入建设平台使之具有平台效应,这或许是阿里巴巴具有商业价值和社会价值的原因。
167 0
逆势招人,阿里平台做对了什么?
|
新零售 供应链 前端开发
饿了么彻底“阿里化”改造后,提出一个阿里味的战略——新服务
2018年10月12日,阿里巴巴合并了饿了么与口碑,成立“阿里本地生活服务公司”,过去的一年,阿里巴巴投入巨大成本彻底完成了饿了么的“阿里化”改造,一年后的2019年11月19日,饿了么提出了一个浓烈“阿里味”的全新战略——新服务。
360 0
饿了么彻底“阿里化”改造后,提出一个阿里味的战略——新服务
|
小程序 开发者 Serverless
阿里巴巴小程序繁星计划战“疫”助力在行动
阿里巴巴小程序繁星计划将提供战“疫”助力,帮助在疫情期间同心战“疫”的开发者、商家,一起早日迎来春暖花开、战胜疫情的那一天!
10029 2
阿里巴巴小程序繁星计划战“疫”助力在行动
下一篇
DataWorks