2.0解析系列 | 一文详解新一代OceanBase云平台

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: OB君:9月21日,OceanBase 2.0 在云栖大会上重磅发布。我们将在接下来的时间里为大家持续推出 “OceanBase 2.0 技术解析系列” 文章,分别从 可运维性、分布式架构、数据可用性、性价比及兼容性 五个方面对OceanBase 2.0的产品新特性及其背后的技术原理进行深入的解析。

OB君:9月21日,OceanBase 2.0 在云栖大会上重磅发布。我们将在接下来的时间里为大家持续推出 “OceanBase 2.0 技术解析系列” 文章,分别从 可运维性、分布式架构、数据可用性、性价比及兼容性 五个方面对OceanBase 2.0的产品新特性及其背后的技术原理进行深入的解析。本文将带你全面解析新一代的OceanBase云平台,更多内容欢迎持续关注本系列!

本文作者:笑言

现任蚂蚁金服OceanBase团队技术专家,2014年加入阿里巴巴,从事领域涉及分布式事务中间件、中间件高可用,目前主要负责OCP 2.0系统的建设工作。

原文:

OceanBase云平台(OceanBase Cloud Platform,以下简称OCP)是一款专门用来管理OceanBase数据库集群的管控平台。通过OCP,可以一键安装、部署、升级OceanBase集群,监控集群的运行状态,创建和维护运维任务,并且对应用开发者透明。OCP伴随着OceanBase而诞生,至今已经从1.0全面进入2.0时代。

OCP 1.0由zookeeper、kafka、Jstorm、Hbase、OTS、OBAgent、obztools等十余个组件构成,各组件协同,在阿里巴巴集团内部,管控了超过5000个OceanBase服务节点,每秒处理监控指标超过100万次。

然而,功能和架构如此复杂的系统在向云转型的时候遇到了两个艰难的问题——部署成本高并且运维复杂。这两个问题对OceanBase的快速输出造成了巨大的障碍。在照搬集团内部技术架构的过程中,系统的表现甚至不如某些开源系统。

问题总是可以在历史中找到答案。英特尔公司成立之初主营业务是半导体存储器芯片,很多年来,英特尔就是“存储芯片”的同义词。然而几年后,英特尔在自己开创的存储器领域被 5 家来自日本的电子公司甩到了后面。

B2528265B5426FEFE03EBFB7569F46B1061F23D7_size44_w750_h489_jpeg

图为英特尔三巨头,从左至右分别为安迪·格鲁夫、鲍勃·诺伊斯和戈登·摩尔

英特尔的两个创始人格鲁夫问摩尔,“ 如果我们下台了,公司再任命一个新CEO,你觉得他会怎么办?” 摩尔不假思索地回答,“他会放弃存储器业务。”,“那我们为什么不这么做呢?”。所以,诞生了全球最大的处理器巨头。

那么,对于OCP团队来说,如果让我们重新来架构OCP 2.0的话,我们该怎么做呢?

一、场景的变化

1. 基础设施的变化

阿里集团基础设施包括了若干自建独立机房,机房之间通过高带宽低延时高效骨干网络相连接,即使跨城的机房之间网络传输丢包率也很低。

构建于高质量基础设施之上的开源组件,比如zookeeper,可靠性很高。然而,对于大多数企业级客户,有些是租用第三方机房,有些不具备三机房条件,基础网络的可靠性也不高,延时不稳定,开源产品运行故障率很高,OCP的SLA无法得到保证。

2. 业务的变化

众所周知,阿里双十一所面临的高并发场景是极端的,需要投入大量的基础设施资源、人力资源来保障系统的稳定运行。而外部业务由于其差异性,往往对基础设施的投入成本比较敏感。OCP的近十个组件的部署成本很高。

阿里集团由于其业务需要,比如HBase、JStorm等主流的开源产品都有专门的团队维护,专业的技术力量为OCP系统提供了强大的后背。然后,在外部输出的时候,OCP系统显得孤立无援。

综上两点,若干开源组件依赖,对OCP的可靠性带来了挑战,也引入了较高的部署成本。

二、OCP 2.0的诞生

OCP作为直接面向应用开发者的在线系统,同时承担了超大规模OceanBase集群的监控和运维工作。在对接企业级业务系统的场景下,至少需要具备以下能力:

对于在线系统,需要提供持续且稳定的高可用服务
对成本敏感的企业用户,要求OCP在占用少量机器资源的同时,提供高并发访问
尽可能少的运维人员投入,要求系统能够实现无人值守
提供可定制、可扩展的产品能力,可在线升级
综上,OCP 2.0在架构设计上,进行了彻底的自我革命,完全抛弃了1.0时代对若干开源组件的依赖,OCP层面坚持去中心化的设计理念,将所有的状态信息集中到OceanBase数据库。

因此,带来的最直接的收益就是极大的缩短了服务链路,在架构层面保证了系统的运行质量,同时,去掉了开源软件的部署成本。

三、OCP 2.0解决方案

OCP 2.0由运维链路、监控链路、诊断链路、数据链路、高可用链路、基础设施等若干子系统。每个子系统又切分成数十个甚至上百个小服务,每个服务实现一个独立的业务逻辑,服务间弱依赖,带来了开发语言以及系统框架选择的灵活性。

1. 基础设施

考虑到外部场景的基础硬件多样性,OCP 2.0提供了统一资源调度层,将物理机、Docker、ECS等纳入资源池统一管理,提供标准化接口屏蔽底层差异,并通过规模化来降低总体成本。同时,标准化IT资源,有利于完成应用服务的快速伸缩。

OCP 2.0统一计算平台提供了标准化的计算能力、任务编排能力,可根据简单定制完成实时、半实时、周期、定时等各类计算需求。支持各种计算任务,包括shell、python、java、http等,能够满足常见的计算需求,还支持将应用自定义的java、python等代码投递到计算平台,实现按业务需求对系统扩展。

2. 高可用链路

OCP 2.0对安全问题非常重视,引入了流量控制保证系统运行时安全,引入了租户隔离保证业务之间数据安全。同时,系统引入全链路跟踪机制,监控完整的服务流转路径,尽可能缩短异常诊断路径,降低运维对人工介入的需求。

3. 运维链路

OCP 2.0承担了OceanBase集群、实例、租户、主机等维度的白屏化运维操作。不同于集团内部有DBA团队承担所有数据库运维操作,外部往往按照组织结构或业务部门来划分数据库实例,各司其职,因此OCP 2.0划分了系统管理员、应用管理员、应用开发人员三个角色,每个角色有各自的用户视角,每个角色承担部分运维功能,不仅符合用户行为,更增强了数据库安全性。

依托于统一计算平台,做到了运维任务的全程可监控。只要是运行于计算平台的计算任务,计算平台会分配一个独立的进程负责任务执行,同时,把运行时IO流、错误流实时推送到浏览器端,做到计算过程所见即所得。

4.监控链路

OceanBase的监控对象包含集群、租户、服务节点、SQL等多个维度,包含上千个监控项,计算每一个监控项都会记录若干乃至上百条监控日志。OCP 2.0将监控信息存储到OceanBase数据库,可使用日志副本来尽可能降低存储成本。

OCP 2.0提供了灵活的监控指标定制能力。在以往的存储模型选型中通常会遇到宽窄表的选择,如果采用宽表作为监控存储模型,一旦监控指标发生变化,会造成锁表;如果采用窄表,可以较好应对指标变化,但是会造成储存空间的浪费,不够经济,并且监控指标变化会引起计算逻辑变化,系统维护成本高。OCP 2.0利用了OceanBase增量数据写内存、定期转储的特性,采用宽表作为监控指标存储模型,同时DDL不锁表。

5.诊断链路

OCP 2.0将集团内部沉淀已久的智能数据库诊断优化产品以及集团DBA的数据库优化经验集成,以统一视角展示。提供了数据库资源的诊断与建议、SQL诊断与优化、慢SQL诊断等常用功能。

6.数据链路

OCP 2.0提供了常用的数据备份、恢复、历史库等功能。并与ODC、OMS等系统集成,提供了数据导入导出、DDL导入导出,以及数据全量、增量迁移等功能,可做到在不停机的情况下,将mysql、oracle等主流关系数据库数据导入OceanBase。

结语

OCP 2.0的架构思路是去依赖、去状态,以及尽可能缩短服务请求的执行路径。在满足高并发、高性能、高可用的基础上,能够快速输出;并且开放了Open-SDK,给了应用参与到OCP插件开发、快速适配业务变化的能力。

架构是一种平衡的艺术,而最好的架构一旦脱离了它所适应的场景,一切都是空谈。OCP 2.0去掉了kafka、jstorm等计算平台,实时性相对变差了,但是仍然在可接受范围内,换来的是大幅降低了资源占用成本以及提升了系统可用性,总体来说,得远大于失。

OceanBase 2.0技术交流群

想了解更多 OceanBase 2.0 特性?
想与蚂蚁金服OceanBase的一线技术专家深入交流?
添加小编微信,快速加入OceanBase技术交流群!
098__

加入我们:

1. OB云平台研发专家/架构师

岗位职责:

  1. 负责大规模运维系统,比如自驱动平台或AIOPS的设计开发,包括部署、监控、备份、高可用、容器化等能力,服务云上和云下企业用户;
  2. 带领一个研发小组,负责产品整体架构的设计、确定核心模块的功能实现方案和性能优化方案;
  3. 参与平台架构的设计,主导设计底层模块,技术实现方案要兼顾性能、稳定性、扩展性和易用性。所有功能及异常通过数据驱动做到自恢复自优化;
  4. 团队内外高效协作,确保前后端模块的协同工作,开发团队采用敏捷开发模式。

2. OB云产品研发专家/算法专家

岗位职责:

1.需要理解业务,根据业务需求完善OceanBase云产品,包括数据库开发中心、自动化性能优化与诊断,容量和性能的分析预测,在线数据实时计算等等;
2.OceanBase驱动、工具研发,包括JDBC,SDK,API等;
3.进行数据相关的采集、存储、同步、管理等开发,基于数据做智能诊断,在数据采集、建模分析、产生决策、自动修复上形成闭环。

可直接发送简历到 OceanBase-Public@list.alibaba-inc.com,我们等的就是你!

相关文章
|
3月前
|
存储 容灾 关系型数据库
OceanBase 高可用性架构解析
【8月更文第31天】在大数据和云计算蓬勃发展的今天,数据库作为数据存储的核心组件,其稳定性和可靠性直接影响到整个系统的性能。OceanBase 是由阿里巴巴集团自主研发的一款分布式关系型数据库系统,旨在为大规模在线交易处理(OLTP)场景提供高性能、高可用性的解决方案。本文将深入探讨 OceanBase 是如何通过其独特的架构设计来确保数据的高可用性和容灾能力。
247 0
|
6月前
|
SQL API 数据处理
新一代实时数据集成框架 Flink CDC 3.0 —— 核心技术架构解析
本文整理自阿里云开源大数据平台吕宴全关于新一代实时数据集成框架 Flink CDC 3.0 的核心技术架构解析。
1330 0
新一代实时数据集成框架 Flink CDC 3.0 —— 核心技术架构解析
|
存储 运维 监控
|
存储 数据采集 分布式计算
解密!基于阿里云Lindorm的新一代工业全链数智云平台
5G、物联网等信息技术演进发展正在推动传统制造业快速数字化升级,拥有超连接、超感知、数智化和物联网数字生态系统的工业企业将在未来竞争中占据绝对优势,2021年12月10日,“新一代工业全链数智升级数据云平台”发布会上,阿里云Lindorm联合工业大脑iGate数据采集与分析平台 & DTwin数字孪生系统推出工业数据云系统,具备云原生超融合能力,支持信息技术 (IT) 与运营技术 (OT)云端融合,为汽车、能源、钢铁、水泥等流程/离散工业企业数字化转型升级提供关键支撑。
770 0
解密!基于阿里云Lindorm的新一代工业全链数智云平台
|
SQL 运维 Oracle
新功能速递 | OceanBase 云平台 3.1 版本发布啦!
OceanBase 云平台(OceanBase Cloud Platform)3.1 版本全新上线,新增五大功能,让日常运维更精准。
新功能速递 | OceanBase 云平台 3.1 版本发布啦!
|
运维 架构师 Oracle
2.2系列第二课来啦!OceanBase 2.2版本开发&运维实践解析
近期,蚂蚁金服开展了“共战‘疫情’,技术破局”数字课堂线上直播。昨天蚂蚁金服解决方案架构师庆涛为大家讲解了2.2的核心特性和部署指南,2月25日14:00庆涛将继续展开2.2系列内容,为大家带来《OceanBase 2.2版本开发&运维实践解析》的直播课程。
2.2系列第二课来啦!OceanBase 2.2版本开发&运维实践解析
|
存储 测试技术 视频直播
直播报名中!首次公开OceanBase征战TPC-C测试技术细节全解析
OceanBase技术直播间是OceanBase为用户和技术爱好者带来的系列技术直播课程,由蚂蚁金服一线技术专家分享最全面的理论知识和最实用的技术实践,内容包含数据库内核系列、手把手实操系列和最佳实践系列等。
直播报名中!首次公开OceanBase征战TPC-C测试技术细节全解析
|
数据库 OceanBase 测试技术
蚂蚁金服OceanBase挑战TPCC | 测试流程解析
蚂蚁金服自研数据库 OceanBase 登顶 TPC-C 引起业内广泛关注,为了更清楚的展示其中的技术细节,我们特意邀请 OceanBase 核心研发人员对本次测试进行技术解读。
6016 0
蚂蚁金服OceanBase挑战TPCC | 测试流程解析
|
存储 Kubernetes 关系型数据库
|
8天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
28 2

热门文章

最新文章

推荐镜像

更多
下一篇
无影云桌面