全网首发!2018年蚂蚁双11大促全面揭秘:百万支付、容器化和平台智能化

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: OB君:你们都很关心的 “OB双11大促实战分享” 专题来啦!本系列将为你系统性的介绍OceanBase支撑蚂蚁双11背后的技术原理和实战分享。从平台到架构,再到实现,一起来探索蚂蚁双11这场神秘的技术之旅吧!

OB君:你们都很关心的双11大促实战分享专题来啦!本系列将为你系统性的介绍OceanBase支撑蚂蚁双11背后的技术原理和实战分享。从平台到架构,再到实现,一起来探索蚂蚁双11这场神秘的技术之旅吧!

1_1

从五年前,只有10%流量切到OceanBase上,到如今OceanBase 2.0版本成功支撑2018年双11的支付宝核心链路。每年不变的是一如既往的表现平稳,丝般顺滑,变化的是技术能力的不断升级和迭代。今年的双11,OceanBase 2.0扛起了大梁,性能比去年提升了50%,真正实现了“零成本”支撑大促。__2018双11大促使用了哪些核心技术?__

今年的双11,OceanBase致力于通过底层架构及平台能力的提升,来实现双11稳定性、成本优化、性能及效率方面的全方位的提升。相较以往始终如一“丝般顺滑”的大促能力外,2018年的双11,OceanBase更加注重长久技术能力的沉淀:

  • OceanBase 2.0版本首次上线支付宝的核心链路,包括交易、支付系统,为“峰值百万支付能力”的三年战略沉淀了通用的“极致弹性”的分布式数据库能力,夯实了百万支付的底层基座
  • 在底层存储介质方面,OceanBase 2.0核心链路首次100%运行在容器上,同时存储计算分离架构上线,大幅降低资源成本的同时夯实统一存储基座
  • 在智能化运维的实践方面,OCP(OceanBase云平台)着眼于SQL优化诊断、故障根因分析和智能容量规划等数据库关键场景,将数据库专家的经验与AI算法/机器学习相结合,提供智能化的数据库服务
  • 在平台能力的沉淀上,OCP引入Orchestration理念,通过编排/复用原子变更任务灵活,实现大促快速弹出/弹回的流程,同时平台内置变更免疫及变更三板斧能力(可监控/可灰度/可回滚),极大的提升了大促整体的稳定性和效率;在整个大促期间,OCP自动执行40000+变更,最终实现全程零故障
  • 在商业产品化方面:智能化运维及平台能力抽象出大促及对外商业化场景,建设通用能力来覆盖蚂蚁内外场景

OceanBase 2.0 & 百万支付

每年双11的压力在不断创造新高,支付系统需要具备百万每秒的支付能力,那么一个亟待解决的问题是:如何解决最小数据分片的峰值能力超过单机性能的问题

OceanBase 2.0应运而生,其目标是在应用无感知的情况下对数据分片进一步拆分,将数据sharding到无限多的机器上,实现极致弹性能力优雅支撑百万支付峰值。

百万支付架构

如下图的百万支付架构所示,传统数据库的弹性架构,将数据进行物理拆分到不同机器,业务在数据访问、研发、后期维护及数据配套设施上都非常繁琐;同时拆分后资源很难快速回收,且数据拆分及聚合无法实现业务无损。

1-2.jpg | center | 747x366

相比于传统数据库的弹性架构,OceanBase 2.0架构完全不侵入业务,内部通过分区实现数据分片的自组织及负载均衡,通过生成列及分区规则实现自动路由,通过分区聚合(partition_group)消除分布式事务性能开销以提升性能,从而实现无损线性伸缩。另外,数据分片间share_nothing及多版本的架构,实现分片故障隔离及单点故障消除的高可用架构。

性能提升

为实现“零成本大促”,OceanBase 2.0花了非常多的精力致力于性能的提升。相比OceanBase 1.0,2.0在分布式架构上全面升级,如原生sharding/分布式事务优化/优化事务提交日志开销。

OceanBase作为底层基础软件,任何微小的性能提升都会为业务节省大量资源,秉承持续优化的匠心,OceanBase 2.0在数据库底层架构、系统实现层面及数据库运行环境全方位进行优化。最终,OceanBase 2.0相比1.0提升了50%的性能,实现今年双11大促的零机器增加。

OceanBase 容器化 & 存储计算分离

双11峰值需要大量的资源支撑,而峰值后资源处于低水位状态,如何快速申请/释放这部分资源?双11当天非支付链路资源空闲,大促是否可以抢占这批资源?大促不同活动时间错峰,不同链路的资源可否实现快速腾挪?类似的资源问题不一而足。

大家可以发现以上问题的本质在于:如何最大化程度降低双11当天的资源成本?这是大促技术要实现的一个核心价值。

双11大促资源成本与两个因素相关,一个是大促资源的总数目,另一个是持有时长。我们可以通过系统优化提升单机性能,来降低大促资源的总数目(如前章节提到的OceanBase 2.0的性能优化)。

那么如何降低持有时长呢?我们统一的思路是:用“高峰期抢占/低峰值释放资源”的方式来大幅降低持有时长;其两个关键前提技术就是容器化和存储计算分离。

OceanBase容器化

OceanBase容器化的核心思想是“资源调度”,大促目标就是“OceanBase能够被快速调度到各种资源载体上(如离线资源、 云资源、峰值无压力的数据库其他集群)”;容器化屏蔽了底层资源载体的差异化,具备弹性部署高效的优点,是资源调度的前提条件。OceanBase打造自身调度能力,深入结合副本、租户的概念,精细化资源画像,使得OB容器化部署快速实现分时复用、资源抢占及混部。

存储计算分离

存储计算分离,顾名思义,将数据库运行依赖的计算资源和存储资源部署到不同的资源载体上,从而实现数据库的弱状态化,使得数据库可分别对存储和计算资源进行弹性伸缩。其好处是显而易见的。

典型场景:

  • 大促态——CPU资源需求激增,而存储资源增幅很小,那么我们可以针对性对计算资源的机型进行扩容,从而降低资源成本且提升扩容效率;
  • 日常态——OB LSM架构将离散IO转化成顺序IO,因此存储的IO能力不是瓶颈,更多的是存储空间上的需求;存储计算分离后,多集群间可降低存储碎片,共享整体存储资源池,提升资源利用率。

平台智能化

随着业务规模的快速增长,系统稳定性SLA预发严峻和OceanBase部署的多样化,传统平台已无法满足我们的需求,可以预见不久的将来,运维将成为业务扩展的瓶颈。因此,OceanBase平台正在逐步走向智能化道路实现智能运维。

OCP着眼于SQL优化诊断、故障根因分析和智能容量等大促关键场景,目标是将运维专家的技术经验和AI算法/机器学习技术相结合,分解运维关键技术,开发成一系列的智能运维模型,应用于大规模运维系统中。

众所周知,SQL plan的正确性对数据库运行至关重要。OCP针对风险场景SQL,在千万峰值压力下,实时进行plan正确性比对,并对可能存在性能变坏隐患的SQL进行分钟级修正。

容量水位是大促至关重要的一环,OCP通过数据建模/智能水位预测对集群/租户/docker进行容量画像,结合OceanBase内置Tenant Group能力,实现容器/集群/租户等多个维度的自动扩缩容,同时计算容量plan在集群/租户维度混部,实现最佳负载均衡部署【 深度部署资源利用率达到(n-1)/n 】,大幅节省了机器资源。

OCP作为OceanBase的“智能大脑”,实时监控数据库运行状态,小至单条SQL plan,大至数千台机器容量,真正做到了生产环境智能化全覆盖。未来,OCP还将不断创新数据库智能化的运维之路,打造更加完善的数据库自治体系。

生态与连接

蚂蚁金服与金融机构最早建立的连接是基于支付业务的合作,后来又逐渐扩展了很多其他普惠金融类的业务,比如网商银行的同业合作,借呗/花呗等。如今随着在蚂蚁金服内部多年积累的技术能力与产品能力,OceanBase也将全面走向外部,对所有行业开放,通过科技作为新的连接纽带助力企业的数字化转型。

过去金融业IT系统的基础架构建设基本都来自国外,如IBM、甲骨文、EMC这些公司构建底层架构,其中门槛最高的就是数据库的整体平滑替换。OceanBase团队从成立之初就肩负着使命,即我们要做一款通用数据库真正的去推动整个社会的进步,能够让整个社会的生产力发生变化。

从2016年底,OceanBase就开始准备走出去,用技术改变业务形态;用技术创造新的业务模式,与更多企业建立更为紧密的连接关系。近两年对外服务的过程中,通过与ISV的深度合作与赋能,不仅提供OceanBase内核的能力,也不断丰富周边配套产品生态,涵盖使用数据库过程中的方方面面。

未来,我们将继续致力于提供高可用、高性能、低成本的数据库服务,相信通过科技的连接助力更多企业,让科技的产出变成可以量化的业务价值。同时,也期待更多有志之士加入我们。

双11技术交流群

— 想了解更多双11大促背后的技术秘密?

— 想与蚂蚁金服OceanBase的一线技术专家深入交流?

扫描下方二维码联系小编,快速加入OceanBase技术交流群!

新加群二维码.jpg | center | 747x1025

加入我们

【数据库智能化开发】

岗位描述:

1、负责蚂蚁金服数据库智能运维平台应用架构设计和实施落地,使系统体系化并具有前瞻性,能快速发现异常和风险隐患,自动识别原因并修复故障源/风险点,实现self-healing、self-scaling、self-tuning的自治数据库目标;

2、负责构建数据库统一技术风险、业务容量和稳定性的数据模型,以数据为支撑驱动诊断、容量、高可用、业务最佳实践等核心问题的数据库智能运维发展;

3、独立完成大型项目的系统分析设计,并负责核心模块研发,完成系统Code Review的任务,提供相关性能以及安全的建议。

【数据库平台前端开发】

岗位描述:

负责蚂蚁金服数据库DevOps平台产品的前端研发,通过专业的前端技术能力为整套数据库产品提供优秀的前端解决方案。

【数据库平台后端开发】

岗位描述:

1、负责蚂蚁金服数据库基础平台、容器化、高可用体系等领域的平台研发;

2、通过平台化思路,持续优化系统维护工作效率,把控技术风险,用工程的思路解决遇到的问题;

3、负责蚂蚁金服数据库智能平台应用架构设计和系统实施,使系统体系化并具有前瞻性,能快速发现业务风险和及时管控;独立完成大型项目的系统分析设计,并负责核心模块研发;负责完成系统Code Review的任务,确保相关代码的有效性和正确性,并能够通过Code Review提供相关性能以及安全的建议。

【数据库SRE】

岗位描述:

1、负责数据库高可用平台体系、基础设施的开发和建设,追求100%的服务持续可用、秒级故障恢复能力;

2、负责数据库成本优化,通过新技术、新产品、新方案全方位地优化系统性能;

3、负责数据库相关平台和工具产品的建设,持续改进业务研发和系统维护效率,用工程的思路解决遇到的问题;

4、负责数据库架构设计,基于高可用、高性能、防资损等视角,与业务团队一起进行数据架构设计;

5、负责公司重大业务活动(如双11/双12)数据库保障,致力于让用户感觉丝般顺滑;

6、负责数据库新技术的探索及落地,如存储计算分离、数据库容器化等。

可直接发送简历到 __qijie.tianqj@alibaba-inc.com__,我们等的就是你!

相关文章
|
6月前
|
Prometheus 监控 Cloud Native
【云原生】Docker容器命令监控+Prometheus监控平台
【云原生】Docker容器命令监控+Prometheus监控平台
207 0
【云原生】Docker容器命令监控+Prometheus监控平台
|
6月前
|
存储 NoSQL Redis
容器部署日志分析平台ELK7.10.1(Elasisearch+Filebeat+Redis+Logstash+Kibana)
容器部署日志分析平台ELK7.10.1(Elasisearch+Filebeat+Redis+Logstash+Kibana)
130 0
|
13天前
|
Linux Shell 虚拟化
linux 部署docker容器虚拟化平台(二)--------docker 镜像制作方法
linux 部署docker容器虚拟化平台(二)--------docker 镜像制作方法
19 0
|
6月前
|
Kubernetes jenkins Linux
两大容器管理平台,Kubernetes与OpenShift有什么区别?
两大容器管理平台,Kubernetes与OpenShift有什么区别?
|
3月前
|
运维 监控 安全
深入探究 Rancher 容器编排平台的核心概念与实践
Rancher 是一款开源的容器编排平台,它可以帮助开发人员和 IT 运维团队更加高效地管理容器化应用程序。本文将深入探究 Rancher 的核心概念和实践,包括其架构、功能和部署流程等方面的内容。
|
3月前
|
分布式计算 Cloud Native 安全
Rancher:容器编排平台的领军者
Rancher是一款容器编排平台,可以帮助企业快速构建、部署和管理容器化应用。本文将详细介绍Rancher的概念和实践,包括其核心特性、优势以及在实际应用中的使用案例。
35 5
|
5月前
|
Cloud Native 数据库 Docker
Docker是一个流行的容器化平台,用于构建、部署和运行应用程序。
Docker容器已经成为现代应用程序开发和部署的核心技术之一。它们的轻量性、可移植性和可伸缩性使其成为各种不同领域的理想选择,从Web应用程序到微服务架构,再到云原生应用程序。本文将探讨Docker容器在各个领域中的实际应用,以及它们为开发人员和组织带来的好处。
|
5月前
|
Kubernetes Linux 微服务
微服务轮子项目(42) -容器管理平台
微服务轮子项目(42) -容器管理平台
106 0
|
9月前
|
Kubernetes 网络协议 Linux
容器管理平台Rancher解析
Rancher是What?一个开源的企业级容器管理平台。通过Rancher,企业再也不必自己使用一系列的开源软件去从头搭建容器服务平台。Rancher提供了在生产环境中使用的管理Docker和Kubernetes的全栈化容器部署与管理平台。
405 0
|
11月前
|
机器学习/深度学习 人工智能 运维
《云原生架构容器&微服务优秀案例集》——01 互联网——任意门 基于云原生 AI 套件打造人工智能的社交网络平台
《云原生架构容器&微服务优秀案例集》——01 互联网——任意门 基于云原生 AI 套件打造人工智能的社交网络平台
301 0