阿里毕玄:阿里十年,从分布式到云时代的架构演进之路

简介: 阿里毕玄分享的《云时代的软件架构》,其中对于架构体系的变迁,以及云时代的软件架构走向何方?都进行了分析。

编者按:这是一篇来自鲲鹏会的文章,其内容是毕玄在TGO 鲲鹏会杭州分会活动现场分享的《云时代的软件架构》的整理。特别转载到云栖社区,让更多开发者深入了解阿里架构的变迁和对云技术的一些新的想法。


2018 年 12 月 15 日,TGO 鲲鹏会杭州分会拉开了 TGO 特有的技术人年会「E 家宴」的帷幕,60+CTO/ 技术 VP 相聚在杭州殊胜龙井酒店。其中,阿里巴巴系统软件、中间件、研发效能负责人毕玄,连尚网络副总裁 &WiFi 万能钥匙万能接入业务群 CEO、TGO 鲲鹏会上海会员万玉权, 同盾科技联合创始人 & 技术 VP、TGO 鲲鹏会杭州会长张新波,及 TGO 鲲鹏会杭州会员、大搜车技术 VP 沈淦、尚尚签 CTO 陶真,和浪潮集团 AI 首席架构师 张清等重磅嘉宾应邀出席,与参会者一起探讨云时代的软件架构、技术红利、团队转型 / 演进 / 发展等话题。

1

林昊 | 花名毕玄

毕玄,阿里巴巴系统软件、中间件、研发效能负责人。

2018 级电子与信息领域工程博士研究生。2007 加入阿里,经历阿里电商 10 多年来的技术架构演进,打造了阿里重要的中间件 HSF 服务框架,设计并带领多团队实现了阿里电商异地多活架构。2011 年开始打造了阿里自研的容器及对资源利用率提升巨大的统一调度系统。先后任职淘宝网平台架构部架构师、集团核心系统研发部资深技术专家、阿里中间件负责人。

奠定阿里五年业务快速发展基础的架构改造

阿里经历了几次较大的软件架构迭代,首先是分布式时代的阿里电商架构。淘宝从 2007 年开始做新一轮架构改造,淘宝从 2007 年开始碰到的最大的问题,即访问量增长太快,导致出现了一个问题:不能加机器了,即伸缩性的问题。淘宝在业务发展过程中,2008 年以前所有的解决方案就是简单加机器就能解决,但是到 2007 年突然出现加不了,那时候淘宝数据库用的是中国最好的 IBM 的小型机。以前数据库连接我们用 Oracle,Oracle 数据库最大的问题是每个链接消耗的内存特别大。因为内存始终有瓶颈,所以当我们内存、数据库连接不够的时候,我们的解决办法是多插内存条,后来内存条插满了,就没有办法了。所以 2007 年淘宝判断必须做新一轮的架构改造,让我们具备水平伸缩能力。

大家现在都知道一个思路,既然一个系统加不了机器,数据库抗不住,那就把一个数据库拆成两个数据库,把访问数据库的业务尽可能集中。以交易为例,以前是所有的 web 应用都要访问的,如果你把交易逻辑抽象出来,把访问数据库操作的地方抽象成一个系统,而这个系统其实不需要很多机器,连接数就可以大幅度下降,这是当时的思路。

那时候淘宝面临主要问题是能否再次水平伸缩,但是还有第二个问题,那就是被技术团队投诉研发进度太慢。我加入淘宝时有 100 多个工程师,开发了同一个系统,每个人都可以改里面所有的代码。这个时候问题就来了,比如我接了一个业务,我要改这个类这一行代码,然后另外一个业务也要改同一类同一行的代码。等这两个人一提交,同一天发布,合并代码就合不了,因为逻辑太复杂了。所以淘宝当时创新性提倡了一种方法:排期。我们在每个月第一天会开淘宝历史上研发团队最激烈以及大家斗志最昂扬的会议,就是用来排这个月的发布。如果两个研发团队发生了冲突,那就 PK 一下谁的需求牛逼。当演进成新的架构的时候,这个问题就被解掉了。

当阿里巴巴整个架构演进成一套服务式架构的时候,一是随伸缩上的能力和价值被认可;第二,2008 年研发团队从 100 人增加到 200 人,2009 年增加到近 600 人以上,一年是几倍地增长。如果当时没有做服务化,整个淘宝业务发展会受到非常大的影响。所以我们凑巧在最应该做架构改造的时候做完了,这一轮是淘宝历史上比较重要的一轮,在这一轮架构中打造出三个最重要的中间件:服务框、消息中间件、TDDL 云上服务。这一轮架构为阿里巴巴 2008-2013 年五年业务的快速发展奠定了坚实的基础。那五年,大部分的团队不用关注技术问题,而是可以非常快地做业务,这对淘宝而言非常重要。

到后来架构图就画得相对标准一点,现在大部分的公司都是这个架构,没有什么区别,基本上都分成三层。这个架构从 2008-2009 年初,花一年的时间完成架构改造,代号五彩石,五彩石项目把淘宝和淘宝商城技术架构合并,合并成新的架构,这个项目对整个阿里的意义绝对重大。这个项目做完以后,架构差不多完成了。

1

架构完成以后,我们一致认为我们做了非常完美的架构,但上线以后,我们发现这个架构碰到的最大问题是稳定性问题。2009 年淘宝稳定性是整个淘宝历史上最差的一年,我们在那一年稳定性小于 3 个 9。后来这个架构在发展过程中不断演进,我们重点做稳定性。除了稳定性,也存在其他小的挑战,比如秒杀,那个架构对秒杀没有什么特殊支持的,所以我们后来对秒杀做了针对性地改造,当然整个结构没有变过,这个架构支撑了淘宝非常多年,直到 2013 年。

到了 2013 年,我们碰到了新的挑战。因为规模增长的问题,导致我们在 2013 年双 11 的时候突然间发现了一个问题,我们在双 11 备战的前一个月也要加机器。数据库团队告诉我们不能加太多,因为那时候已经不是买 Oracle,是 MySQL,MySQL 的连接确实比 Oracle 更小很多,但是我们前面的机器也是很多,所以最后的链接池又成为了问题。当然除了数据库以外,我们发现中间件和其他的东西也存在一些问题,虽然我们整个是分布式系统,但是一个分布式系统里面一定有某些点是集中的,某些点一定是全部都要接的,那些点随着规模的上升就会成为很大的瓶颈点。所以到了 2013 年,我们就再次面临了这个挑战,那时候已经是双 11 前一个月,我们已经改变不了什么。那年我们临时用了别的方案顶过了那一年的双 11,但在那年双 11 以后我们明白,阿里迎来了新一轮架构升级的机会。

新一轮的架构改造:异地多活

2013 年,我们决定开始做阿里巴巴新一轮的架构改造,我们把这一轮架构改造在内部称为单元化,版本的代号是 3.0 到 4.0。这一轮解决的第一个问题是水平伸缩,怎么样在不加机器下扛大的规模;二是我们决定必须做另外一件事情,让整个阿里可以随便在哪里部署,并且是多个地点。

1

很多人记得 2013 年杭州特别热,40 度高温持续了十几天,结果是阿里巴巴接到了通知,我们的其中机房必须限电。那一年吓坏我们了,因为那个机房是数据库机房,如果断了,整个淘宝全挂了,那一次事件给了我们无比大的教训。

这个项目跟我们做分布式有一个很大的不同,2008 年做的时候我们其实有参考对象。2013 年我们做异地多活的时候没有参考对象,而且大家都认为这件事情风险非常高,如果能不做尽可能不要做。从全球来看,谷歌很早做了,Facebook 做了一点点但没有做得太彻底,亚马逊和 eBay 都是不做的。后来我们参考各家方案,发现谷歌的方案在电商行业根本不可用,谷歌不在乎响应时间,但是交易非常在乎。比如你下单慢一点,在双 11 这样的场景下肯定会导致我们崩盘,因为响应时间往上拉高,我们没有办法支持。Facebook 和腾讯都做了,腾讯主要是微信做,但微信其实是一个消息 IM 系统,IM 其实是比较容易做的,因为大家本来就是异步交互,但是交易是特别强调同步并且对数据一致性要求特别高的场景,所以我们在做整个方案的时候完全只能自己想到底该怎么办。我们最后做的方案是这边的方案——异地多活。

我自己带着团队做这个方案的时候,最关心的只有一个问题:异地多活最大的风险是什么?因为它是活的,异地这个点不是冷备的点,意味着异地的点也在写数据,它最大的风险就在于每个点都在写数据,如果数据一旦写错了就废了。阿里是一家做信任的公司,只要数据一错,我们这个公司的声誉就毁了。所以当时做这个方案,我们跟架构师团队讲最重要的是:不要出现数据错乱,其他我们都可以接受。其实这个项目在整个架构设计上是非常充分体现了当时最活的讲 CAP 只能选两个地方,因为我们选择了数据一致性,所以一定程度上牺牲了可用性,对可用性会有一些影响。

这个项目在 2016 年基本上全部做完,从 2016 年以后整个阿里部署架构一直都是这样的,我们现在一直都是三地部署,我们有三个点,任何一个点挂了对我们都没有任何影响,我们切换流量大概只需要在 30 秒内就可以全部完成。因为我们上了以后才发现单地风险很容易出现风险,尤其是单个机房,比如说路由器、交换机出现问题,你就不知道怎么办,但是多地就没有问题。

这个架构对阿里来讲最大的价值:第一,再次具备水平伸缩的能力,我们现在支持双 11,只需要不断扩容单元或者说重新新建不同的单元,就可以完成整个过程;第二,可以让地域级的容灾能力提升,因为我们都是活的,所以就可以随便切来切去。淘宝在双 11 前面一个月密集备战的过程,我们就会不断切流量,每天白天都在切流量,但我相信很多用户是从来没有感受过我们在切流量。所以我认为这次架构改造之后,应该还能撑个很多年。

资源弹性时代的阿里电商架构

近几年主要围绕另外一件事情做。你们都会发现我们在做前面两个版本改造最大的区别是:前两个版本都在解决水平伸缩的问题,其实水平伸缩是业务对技术团队的基本要求,你肯定要做到可以加机器解掉业务高峰的问题,所以这时候技术团队对业务团队的价值是有限的。但随着我们在水平伸缩上解决得更好,包括双 11 稳定性的确保上做得越来越好,技术团队可以做更多。其实双 11 后来面临的问题和挑战是成本,稳定性方面随着全链路压测之后,我们就发现很多东西越来越稳了,但是双 11 的成本是我们很大的压力,因为双 11 的峰值跟日常的峰值差距越来越拉大,意味着为了双 11 前面那一段时间,我们要付出的代价是非常巨大的。所以现在这个问题就成为了我们最头痛的问题。

1

我讲阿里的技术架构演进时,很多人会问我一个问题:双 11 后,你们的机器都拿去干嘛了?这句话,每次都问得我非常尴尬,我也不知道怎么回答,我也只能随便扯,通常的扯法告诉你下一年日常峰值会接近双 11 的峰值,那就没怎么浪费,但很多人都懂其实是不大可能的,所以很难回答。但是阿里还好,出现了两个变数。我们后来出现了两个东西,来让我们更好解决这个问题:第一,阿里云。从 2014 年开始阿里云发展起来了,阿里云的发展对我们来讲有一个巨大的好处,因为我可以借阿里云的资源临时顶一下双 11,借完了再还给阿里云,阿里云再售卖,这只是一个周期的问题。所以阿里云的起来,至少对双 11 的帮助是非常巨大的。我们也用了很多年的时间做这件事情,因为阿里的技术和阿里云的技术确实有差别,所以为了让我们的东西能跑在阿里云上,并且对业务研发团队没有感觉,其实也要做很多的东西,比如说运维系统怎么对接两套不一样的东西,又让业务没有安全,资源的使用方式不一样,阿里云上是 ECS,我们内部都是容器,所以这两者也要做对接。所以我们当时做了很多这方面的工作。

可以给大家一个数据。我们在 2014 年用阿里云资源扛双 11 10% 的流量,2015 年用阿里云的资源扛 60% 的流量,2015 年扛 60%流量的那一年做双 11 的成本,每万笔下降了 50%,后来几年我们一直延用这个方案,不断增加云的资源。

但是去年开始发现其实我们还有别的路可以走,除了云以外,因为用云其实还是要钱的。比如,我们要用很长一段时间,因为我们买的机器实在太多了,阿里云卖掉也需要一些时间。后来我们在想有没有不用钱的方案?其实现在大部分内部有两个最大的集群,一个用来部署在线业务,一个用来部署离线业务。通常来讲,你有两个集群,但是这两个集群没有太大的关系。

所以我们认为在双 11 的时候可以用大数据计算的集群扛短时的高峰。我们开始做这个方案,但是这个方案有个非常复杂的问题,虽然我们的离线没有那么重要,但也不能全部停掉,因为如果全部停掉对双 11 也会产生影响,大家知道我们有实时推荐,我们需要大数据进行计算。如果不能全停,就有一个问题:怎么保证在线业务放上去跑的时候,离线不会把你的资源全部抢光?所以有一个互相干扰的问题。我们在过去几年,在操作系统的部分、调度系统部分做很多的工作,来避免这个问题。今年,我们大概用离线机器扛了 16 万笔的交易,相当于 16 万笔交易不用花钱,完全免费,对业务团队来讲,今年双 11 每万笔交易成本相比去年又下降了 17%。我们总共有 49.1 万笔,所以带来的成本节省是非常壮观的。

云时代的软件架构走向何方?

云时代的软件架构走向何方?这是我们一直在思考的部分,我们在想未来怎么跟云结合。我前面所讲的资源弹性跟云就有很大的关系。所以我们认为云时代软件架构,在价值层面看到的:对很多使用方来说,第一点是弹性,我可以有高峰就用、没有高峰就退。阿里还有另外一家特别典型的公司:饿了么。饿了么是典型有非常明显高峰效应的公司,但是它过了高峰就没有什么量了,这种公司,如果你为高峰准备钱,投入是非常大的,所以它跟云更好结合,在弹性上一定可以享受非常大的价值;第二点,我们认为云的整体演进会带来另外一点改变是整个业务研发团队会越来越不关注下面是什么,越来越脱离下面这一层,这是我们认为的一个风向,因为阿里巴巴在今年双 11 里面已经小面积使用了这个技术。比如说大家看到的手淘首页,首页下面有很多推荐,如果按以前的开发方式,门槛是很高的,你要懂阿里巴巴背后非常多的技术。但今年我们把它改成了很类似的方式,前端的人可以简单写几个函数,把页面组装起来,后面有非常复杂的服务调用、扩容体系,把很多工作都隐藏到了背后的一套平台,前端的人在整体业务效率上非常高。所以我们认为如果我们的软件架构真的演进到跟云深度整合,有一个好处是你的研发效率会提高,门槛会降低,至少在阿里几个场景里我们看到了这个现象。

我们在内部讨论一个问题:我们认为阿里走到今天面临的一个很大问题是每进到一个阿里做业务研发的员工,如果你想做好一个业务研发,你都要了解阿里背后非常复杂的技术体系。而你要了解这个技术体系,门槛不低,你要学习很多的东西。但是我相信做过业务研发的人知道,做业务研发的代码逻辑不应该关心这些东西,他应该关心怎么把业务逻辑抽象成一个比较简单的东西,这是业务最核心的问题,现在就导致很多业务人需要花更多时间学技术,而不是研究业务,我们认为这个事会被改变。

1

所以在云的时代,我们希望设计一个右边的架构,希望在下面有一个非常厚的平台,所有的业务团队更加关注写一些很小的代码片段或者相对来讲更为复杂一点的简单服务,通过下面的东西帮你组装,你也不用关心所有的架构。这是我们希望云演进的方向,也是我们现在探索阿里巴巴整个软件架构怎么演进成这个样子。大家看阿里的架构演进,就可以发现我们前面解了伸缩性问题,成本问题基本接近解决,当然还需要进一步努力。我们现在关注的下一个问题是效率问题,怎么让我们的效率进一步提升起来,比如说我们希望阿里巴巴整个业务研发的门槛能够降低到像 2007 年一样,这样的话业务研发的效率就会非常高,但这背后必须有很复杂的方案。所以我们认为这一代架构最关键的是怎么降低研发门槛,怎么大幅拉高研发效率,这就是阿里现在正在探索的。

本文来自 TGO鲲鹏会。点击看原文。

相关文章
|
21天前
|
存储 Prometheus Cloud Native
分布式系统架构6:链路追踪
本文深入探讨了分布式系统中的链路追踪理论,涵盖追踪与跨度的概念、追踪系统的模块划分及数据收集的三种方式。链路追踪旨在解决复杂分布式系统中请求流转路径不清晰的问题,帮助快速定位故障和性能瓶颈。文中介绍了基于日志、服务探针和边车代理的数据收集方法,并简述了OpenTracing、OpenCensus和OpenTelemetry等链路追踪协议的发展历程及其特点。通过理解这些概念,可以更好地掌握开源链路追踪框架的使用。
77 41
|
2天前
|
存储 缓存 NoSQL
分布式系统架构8:分布式缓存
本文介绍了分布式缓存的理论知识及Redis集群的应用,探讨了AP与CP的区别,Redis作为AP系统具备高性能和高可用性但不保证强一致性。文章还讲解了透明多级缓存(TMC)的概念及其优缺点,并详细分析了memcached和Redis的分布式实现方案。此外,针对缓存穿透、击穿、雪崩和污染等常见问题提供了应对策略,强调了Cache Aside模式在解决数据一致性方面的作用。最后指出,面试中关于缓存的问题多围绕Redis展开,建议深入学习相关知识点。
34 8
|
5天前
|
存储 缓存 安全
分布式系统架构7:本地缓存
这是小卷关于分布式系统架构学习的第10篇文章,主要介绍本地缓存的基础理论。文章分析了引入缓存的利弊,解释了缓存对CPU和I/O压力的缓解作用,并讨论了缓存的吞吐量、命中率、淘汰策略等属性。同时,对比了几种常见的本地缓存工具(如ConcurrentHashMap、Ehcache、Guava Cache和Caffeine),详细介绍了它们的访问控制、淘汰策略及扩展功能。
27 6
|
8天前
|
存储 关系型数据库 分布式数据库
[PolarDB实操课] 01.PolarDB分布式版架构介绍
《PolarDB实操课》之“PolarDB分布式版架构介绍”由阿里云架构师王江颖主讲。课程涵盖PolarDB-X的分布式架构、典型业务场景(如实时交易、海量数据存储等)、分布式焦点问题(如业务连续性、一致性保障等)及技术架构详解。PolarDB-X基于Share-Nothing架构,支持HTAP能力,具备高可用性和容错性,适用于多种分布式改造和迁移场景。课程链接:[https://developer.aliyun.com/live/253957](https://developer.aliyun.com/live/253957)。更多内容可访问阿里云培训中心。
[PolarDB实操课] 01.PolarDB分布式版架构介绍
|
1月前
|
设计模式 存储 算法
分布式系统架构5:限流设计模式
本文是小卷关于分布式系统架构学习的第5篇,重点介绍限流器及4种常见的限流设计模式:流量计数器、滑动窗口、漏桶和令牌桶。限流旨在保护系统免受超额流量冲击,确保资源合理分配。流量计数器简单但存在边界问题;滑动窗口更精细地控制流量;漏桶平滑流量但配置复杂;令牌桶允许突发流量。此外,还简要介绍了分布式限流的概念及实现方式,强调了限流的代价与收益权衡。
80 11
|
1月前
|
设计模式 监控 Java
分布式系统架构4:容错设计模式
这是小卷对分布式系统架构学习的第4篇文章,重点介绍了三种常见的容错设计模式:断路器模式、舱壁隔离模式和重试模式。断路器模式防止服务故障蔓延,舱壁隔离模式通过资源隔离避免全局影响,重试模式提升短期故障下的调用成功率。文章还对比了这些模式的优缺点及适用场景,并解释了服务熔断与服务降级的区别。尽管技术文章阅读量不高,但小卷坚持每日更新以促进个人成长。
53 11
|
1月前
|
消息中间件 存储 安全
分布式系统架构3:服务容错
分布式系统因其复杂性,故障几乎是必然的。那么如何让系统在不可避免的故障中依然保持稳定?本文详细介绍了分布式架构中7种核心的服务容错策略,包括故障转移、快速失败、安全失败等,以及它们在实际业务场景中的应用。无论是支付场景的快速失败,还是日志采集的安全失败,每种策略都有自己的适用领域和优缺点。此外,文章还为技术面试提供了解题思路,助你在关键时刻脱颖而出。掌握这些策略,不仅能提升系统健壮性,还能让你的技术栈更上一层楼!快来深入学习,走向架构师之路吧!
68 11
|
1月前
|
弹性计算 API 持续交付
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。
|
2月前
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
66 3
|
2月前
|
Cloud Native 安全 数据安全/隐私保护
云原生架构下的微服务治理与挑战####
随着云计算技术的飞速发展,云原生架构以其高效、灵活、可扩展的特性成为现代企业IT架构的首选。本文聚焦于云原生环境下的微服务治理问题,探讨其在促进业务敏捷性的同时所面临的挑战及应对策略。通过分析微服务拆分、服务间通信、故障隔离与恢复等关键环节,本文旨在为读者提供一个关于如何在云原生环境中有效实施微服务治理的全面视角,助力企业在数字化转型的道路上稳健前行。 ####