PolarDB-X 2.0:使用一个透明的分布式数据库是一种什么体验-阿里云开发者社区

开发者社区> 游客fpflzor5tub5q> 正文

PolarDB-X 2.0:使用一个透明的分布式数据库是一种什么体验

简介: 简介: 透明分布式,是PolarDB-X即将发布的能力,它能让应用在使用PolarDB-X的过程中,犹如使用单机数据库一般的体验。与传统的中间件类型的“分布式数据库”相比,有了透明分布式能力的PolarDB-X,不再需要应用考虑分区键的概念,应用可以完全将单机MySQL上开发的建表语句、应用代码直接迁移到PolarDB-X上运行起来。本文将为大家介绍PolarDB-X透明分布式的新体验。
+关注继续查看

PolarDB-X 2.0视频解读https://yqh.aliyun.com/live/polardbx2021

透明分布式,是PolarDB-X即将发布的能力,它能让应用在使用PolarDB-X的过程中,犹如使用单机数据库一般的体验。

与传统的中间件类型的“分布式数据库”相比,有了透明分布式能力的PolarDB-X,不再需要应用考虑分区键的概念,应用可以完全将单机MySQL上开发的建表语句、应用代码直接迁移到PolarDB-X上运行起来。

本文将为大家介绍PolarDB-X透明分布式的新体验。

在PolarDB-X上安装一个WordPress

WordPress是一个开源的博客软件,它使用MySQL作为其数据库。操作是在PolarDB-X上安装一个WordPress,来体验PolarDB-X的透明分布式能力。

我们将遵循简单的三步走:

  1. 不修改DDL直接建表
  2. 不修改应用直接跑起来
  3. 做下压测,做下调优

总结如下:

  1. 使用官方的WordPress镜像,不做任何修改,其安装程序就能自动的在PolarDB-X上完成建表、数据初始化等工作,其使用的都是标准的MySQL语法。
  2. 对此WordPress进行压测,PolarDB-X的各项监控数据显示,各节点处于的负载、数据量均处于均衡的状态。
  3. 通过PolarDB-X提供的SQL分析、DAS等工具,可以方便的找到系统中热点SQL。
  4. DBA可以直接通过创建索引、修改数据分布等DDL语句对系统性能做进一步的优化,不需要修改应用。

PolarDB-X实现透明分布式的武器

下面为大家分享下,PolarDB-X是如何实现透明分布式的。

透明数据分区

PolarDB-X是一个典型的Share Nothing的分布式数据库,其简化架构如下:

image

其核心组件为无状态的计算节点CN,与有状态的存储节点DN。

要了解PolarDB-X的透明分布式能力,首先要了解数据在PolarDB-X上是如何分布的。

在PolarDB-X中,一个表由多个索引组成,包括主键、二级索引等。PolarDB-X会对每个索引进行独立的进行分区,其分区键为索引的key。

例如一个典型的电商场景,订单表,拥有一个主键(id),两个索引(seller_id与buyer_id):

create table orders (
   id bigint, 
   buyer_id varchar comment '买家', 
   seller_id varchar comment '卖家',
   primary key(id),
   index sdx(seller_id),
   index bdx(buyer_id)
)
  • 对于主键索引,会按照id对其进行分区
  • 对于索引sdx,会按照seller_id进行分区
  • 对于索引bdx,会按照buyer_id进行分区

如下图所示:

image

对索引进行分片之后,PolarDB-X会将这些分片打散到不同的存储节点里,并会按照数据量等信息进行负载均衡,如下图所示:

image

在PolarDB-X中,建表语句中可以不考虑分区键,PolarDB-X也能自动的对表进行分片与负载均衡。

因此,应用迁移PolarDB-X时,可以将单机MySQL中的建表语句导出,不需要修改直接在PolarDB-X中执行即可。

透明的分布式事务

分布式事务是PolarDB-X中的最重要的基础能力,它广泛的应用于业务内,避免了业务对事务代码进行改造;同时,PolarDB-X内部也用事务来实现索引。

PolarDB-X的分布式事务有以下几个特征:

  1. 与Spanner一样,满足外部一致性这种最强的一致性级别
  2. 语法与MySQL完全兼容,无需对应用进行改造
  3. 行为上支持兼容MySQL的RC与RR级别

image

PolarDB-X分布式事务的原理我们专栏有很多介绍的文章,在此不再赘述。对其原理感兴趣的同学可以参考这几篇文章:

https://zhuanlan.zhihu.com/p/329978215

https://zhuanlan.zhihu.com/p/338535541

https://zhuanlan.zhihu.com/p/355413022

Online DDL

PolarDB-X支持类型丰富的Online DDL,这里介绍一些有代表性的DDL类型。

索引维护

与单机MySQL的索引有所差异,PolarDB-X的索引均为全局索引,包含以下几种类型:

  • 普通索引
  • 唯一索引
  • 聚簇索引

其中聚簇索引是PolarDB-X相对于MySQL的一种新类型的索引,它会包含表中的所有列,从而避免了回表的代价。

PolarDB-X中对索引的创建都通过DDL来完成,并且都是Online的,不会阻塞业务。

例如:

  • 创建一个普通的索引:CREATE INDEX idx1 ON t1(name)
  • 创建一个聚簇的索引:CREATE CLUSTERED INDEX idx1 ON t1(name)

INSTANT ADD COLUMN

加列操作是业务中最为常见的DDL类型。在MySQL中,加列操作的耗时是与数据量相关的(MySQL8.0中在表的最后面加列是INSTANT的)。

在PolarDB-X中,在任意位置加列都是INSTANT的,这个代表加列操作为恒定的秒级耗时,与数据量无关,不会对业务产生任何影响。

分区调整

PolarDB-X支持4种表的分布策略,Hash、Range、List、Broadcast。由于Hash能避免连续写入的热点,PolarDB-X默认使用Hash策略,大多数情况下,此策略能够很好的满足系统的性能需要。

但是如果业务在运行期间,希望选择合适的分区策略来提升系统性能,在PolarDB-X中可以方便的通过DDL语句进行调整,PolarDB-X会按照新的分区策略重新组织表的数据。

例如:

  • 修改表的分区策略为Hash:ALTER TABLE t1 PARTITION BY HASH(name)
  • 修改表的分片数为32:ALTER TABLE t1 PARTITION BY HASH(name) PARTITIONS 32
  • 将表变为广播表:ALTER TABLE t1 BROADCAST
  • 修改表的分区策略为RANGE:ALTER TABLE t1 PARTITION BY RANGE(id)

任意两种分区策略之间都可以通过DDL语句进行转换:

image

回填速度自适应

想必很多同学有过这样的经验:一个超大的表进行DDL操作,由于数据量比较大,这个DDL操作无法在一天内完成,为了避免对业务影响,人肉在白天业务高峰期来临的时候,调整参数,降低DDL的回填速度,晚上在业务高峰期结束后,提高DDL的回填速度。

PolarDB-X中的回填,会根据当前的系统负载,自动调节速度。

例如:

image

image

在这个例子中,分了四个阶段:

  1. 开始没有业务负载,DDL回填速度上升到25W行/s
  2. 业务负载开始上升,DDL回填速度迅速下降到13W行/s
  3. 业务TPS稳定在1W5,DDL回填速度稳定在13W行/s
  4. DDL结束后,业务TPS稳定在1W6

从这个例子中,我们可以看到PolarDB-X DDL的回填速度会自动根据业务负载进行调整,并且DDL期间,对业务的TPS影响很小。

让Online更Online

为了进一步减少DDL期间对业务的影响,PolarDB-X还使用了多项技术,例如:

我们会在今后的文章里详细介绍这些技术的细节,请关注我们的知乎专栏:https://www.zhihu.com/org/polardb-x

总结

PolarDB-X的透明分布式能力,将极大的减少应用从单机数据库迁移分布式数据库的成本。同时,我们未来也会让它变得更透明,我们正在做的一些事情包括:

  • 更精细的调度策略
  • 热点数据的可视化展示,与SQL审计分析联动的智能诊断
  • 在有全局索引的情况下,支持分区级的truncate
  • 数据的按时间滚动、清理
  • 等等

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
深度 | 带领国产数据库走向世界,POLARDB底层逻辑是什么?
在刚刚结束的乌镇世界互联网大会上,阿里云自主研发的POLARDB云原生数据库当选世界互联网领先科技成果,凭实力站上C位。这个”包管“了北京市每天800万人次公交出行的下一代分布式数据库到底有多强大?今天特别邀请到阿里云智能数据库事业部总经理鸣嵩跟大家一起聊聊。
5405 0
.NET数据库编程求索之路--9.使用EF实现
9.使用EF实现   源码下载: /Files/SummerRain/NetDbDevRoad/9使用EF实现1自动ORM简单三层.rar /Files/SummerRain/NetDbDevRoad/9使用EF实现2自动纯POCO代理简单三层.
646 0
.Net FrameWork 4.0中使用EF向数据库插入数据报datatime2类型错误的解决办法
最近用.Net 4.0创建EF的持久层,老是在插入新数据时,报datatime2类型错误。 找了很多资料,都没有得到解决,后来我询问了我的一个同事,Tom 给我解决了这个问题。   由于EF4默认把C#的DateTime类型转换成Sql server2008的datatime2类型,所以2005的数据库不支持,最终导致程序报错。
654 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
8268 0
OAF_JDBC系列2 - 通过JDBC连接SQLSERVER数据库DriverManager.getConnection
d          try{          Class.forName("com.microsoft.sqlserver.jdbc.SQLServerDriver");          String connectionSQLServer = "jdbc:sqlserver://gavinmysql.
695 0
首次曝光 | 阿里数万名开发者都在使用的数据库开发工具到底长什么样?
数据管理DMS(Data Management Service)是阿里巴巴自研图形化的数据库开发工具,已服务阿里巴巴及阿里云上几十万开发者实现安全便捷的数据库访问开发工作。用户可以通过DMS实现25种常见数据库的访问研发。
868 0
hll 估值插件 在Greenplum中的使用 以及 分布式聚合函数优化思路
背景 在大数据分析中,通常会有一些估值的需求,例如估计某个时间段有多少新增用户,估计某个时间段有多少用户。 常用的估值算法如HyperLogLog,还有一些其他的估值算法。 可以参考http://www.pipelinedb.com/ 我在几年前写过如何在PostgreSQL中使用HLL,请
5414 0
使用JDBC获取各数据库的Meta信息——表以及对应的列
先贴代码,作为草稿: 第一个是工具类, MapUtil.java import java.util.ArrayList; import java.util.HashMap; import java.
743 0
首次曝光 | 阿里数万名开发者都在使用的数据库开发工具到底长什么样?
数据管理DMS(Data Management Service)是阿里巴巴自研图形化的数据库开发工具,已服务阿里巴巴及阿里云上几十万开发者实现安全便捷的数据库访问开发工作。用户可以通过DMS实现25种常见数据库的访问研发。
1327 0
1
文章
0
问答
来源圈子
更多
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载