MySql,Sql Server分区技术浅析

简介:
+关注继续查看

一.MySql    

   MySql在5.1以后的版本中加入了分区技术,其不同于以往的分表技术,之前的分表技术是把一张大的表水平(按照一定的逻辑)分成多张表,比如如果我们的User表中有1000万条数据,那如果放在一张表里面去查询,绝对是坑爹的行为,更别提再去进行增删改。如果在加上索引,撑爆内存是难免的。所以才有了之后的分表技术,比如把用户名是a开头的用户放入一张表里面,这样可以减少该表的数据量 ,但是同样这个在应用层上也需要对系统进行优化,比如当我查询“abc”这个用户时,我知道他的信息在user1这个表里,然后与之对应的select语句就要发生相应的变化。当然进行水平分表时也不一定仅仅按照用户名的首字母来匹配对应相应的存储表,应根据信息得不同建立相应的逻辑对应关系。发现自己扯得有点远……。咱们回过头来说一下MySql5.1版本之后的的分区技术,不过还要提一下之前的分表技术,多大表进行拆分后,其相应的子表(暂且这么称呼)在逻辑上是变化的,这就体现在我们查询sql语句的不同上,那有没有一种技术可以在逻辑上保持原状,仅仅在物理结构上发生变化呐?这就是我们要提到的MySql的分区技术。对应用程序而言,他还是一张表,这样可以在逻辑层上屏蔽我们之前遇到的复杂查询语句。

MySql5.1上有5种分区类型,下面就让我们一个个的来瞅瞅看:

1)RANGE分区(经常使用):

基于属于一个给定连续区间的列值,把多个行分配给分区;    

例:假定你创建了一个如下表,该表保存了20家音像店的职员记录,这20家音像店的编号从1到20,你想把不同时期离职的职员的信息分别存储,那么你可以将字段separated(即离职时间)作为一个Key,则sql语句如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
CREATE TABLE Employees(
  Id INT NOT NULL,
  Fname VARCHAR(30),
  Iname VARCHAR(30),
  Hired DATE NOT NULL DEFAULT ‘1990-01-01’,
  Separated DATE NOT NULL DEFAULT ‘9999-12-31’,
  Job_CODE INT,
  Store_ID INT
PARTITION BY RANGE(YEAR(Separated ))(
  PARTITION S0 VALUESLESS THAN(1991),
  PARTITION S1 VALUESLESS THAN(1996),
  PARTITION S2 VALUESLESS THAN(2001),
  PARTITION S3 VALUESLESS THAN MAXVALUE,
);

PARTITION BYRANGE(YEAR(Separated ))(

……

)  

就是根据Separate进行分组,上面代码表示离职年份在1991之前数据的存储在S0表中,其余的一次类推,相信以各位的智商应该能够看得懂j_0020.gif


2)LIST分区(一般使用):

类似于RANGE分区,但是属于RANGE的一个特例,是基于列值匹配一个离散集合重的某个值来进行选择的,再清楚一点就是当表中列里的值是固定值时(性别:男,女)而且是枚举类型时,此时适合使用LIST分区;

例:假定你创建了一个如下的一个表,该表保存了20家音像店的职员记录,而这20家音像店分布在4个有经销权的地方,如下表:

地区

商店ID

北区

3,5,6,9,17

东区

1,2,10,11,19,20

西区

4,12,13,14,18

中心区

7,8,15,16

则LIST分区语句为:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
CREATE TABLE Employees(
  Id INT NOT NULL,
  Fname VARCHAR(30),
  Iname VARCHAR(30),
  Hired DATE NOT NULL DEFAULT ‘1990-01-01’,
  Separated DATE NOT NULL DEFAULT ‘9999-12-31’,
  Job_CODE INT,
  Store_ID INT
PARTITION BY LIST(Store_ID)(
  PARTITION Snorth VALUESLESS IN(3,5,6,9,17),
  PARTITION Seast VALUESLESS IN(1,2,10,11,19,20),
  PARTITION Swest VALUESLESS IN(4.12.13.14.18),
  PARTITION Scentral VALUESLESS IN (7,8.15.16),
);

相信大家都看得懂,不做过多的解释。

3)HASH分区(较少使用)

基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的那些行的列值进行计算,这个函数可以包含MySql重的有效的、产生非负整数值的任何表达式。其要根据该表所处的环境来衡量是否可用于该表,也就是在预先确定数目的分区中平均分布。

例:还是上面的那种表,那么现在我想把不同时期入职的员工分别进行存储,那我可以将日期字段Hired作为一个Key,sql语句如下:

1
2
3
4
5
6
7
8
9
10
11
12
CREATE TABLE Employees(
  Id INT NOT NULL,
  Fname VARCHAR(30),
  Iname VARCHAR(30),
  Hired DATE NOT NULL DEFAULT ‘1990-01-01’,
  Separated DATE NOT NULL DEFAULT ‘9999-12-31’,
  Job_CODE INT,
  Store_ID INT
PARTITION BY HASH(YEAR(Hired))
PARTITIONS 4
;

也就是说根据Hired这个字段把数据平均分配到4个不同分区表中。注意:HASH中的值必须是整数所以使用到了YEAR函数。

4)KEY分区(很少使用)

类似于HASH分区,区别在于KEY分区只提供计算一列或多列,且MySql服务器提供其自身的哈希函数。与HASH不同的是它的Key可以不是整数类型,可以是字符串等字段,该分区使用不多,而且效率有些折扣,在此不再举例;


二.Sql Server

Sql Server在2005之后的版本引入的特性。这个特性允许逻辑上的表在物理上分成多个部分,之前所谓的分区表仅仅是分布式视图,也就是多个表做union视图,而真正的分区表是逻辑上一个表,物理上多个表,原理跟MySql分区表的概念基本一致。有一点值得注意的是分区函数并不具体属于分区架构和分区表,他们之间仅仅属于使用关系。

1).定义分区表首先要定义分区函数,例如:


1
2
3
4
5
6
--创建分区函数
CREATE PARTITION FUNCTION fqPartition(DATE)
AS RANGE RIGHT
FOR VALUES('2010-01-01','2012-01-01')
--查看分区函数是否创建成功
Select FROM SYS.PARTITION_FUNCTIONSGAI


该函数把时间分成了3个区域,2010-01-01之前是一个区域,2010-01-01~2012-01-01是一个区域,剩下的是一个区域。

2).定义分区架构

定义完分区函数仅仅是到了如何将列的值区分到不同的分区中,而每个分区的存储方式则需要分区架构来定义,分区架构负责分配每个区属于那个文件组,而分区函数是决定了如何在逻辑上分区


1
2
3
4
5
6
7
--基于之前的分区函数创建分区架构
CREATE PARTITION SCHEME schemeForPartition
AS PARTITION fqPartition
--因为有3个区域,所以要指定3个文件组,也可以使用all 所有的区域指向一个文件组,不过这样没有太多意义
TO (fileGroup0,fileGroup1,fileGroup2)
--查看已经建立的分区架构
select from sys.partition_schemes

3).定义分区表

这个就不用过多解释了,就是我们的逻辑表,只不过显示当中都是某张表够大的时候才考虑采用分区表,但是当我们在刚刚建立时需要指定相关的特性,示例代码:

1
2
3
4
5
6
CREATE TABLE PTable(
ID INT,
ORDERID INT,
SALESDATE DATE
ON schemeForPartition(SALESDATE)
--schemeForPartition指定分区架构根据的Key为SALESDATE就创建完成了


这样Sql Server数据库的分区表就创建完成了。。。


今天先写到这里,以后在对分区表进行深入的研究。


本文转自 tongling_zzu 51CTO博客,原文链接:http://blog.51cto.com/tongling/1244812


相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
28天前
|
存储 关系型数据库 MySQL
MySQL到SelectDB的实时数据同步技术解读
NineData 采用先进的数据同步技术,确保数据实时同步到 SelectDB,极大地降低了数据延迟,让您的决策基于最新数据。
45 0
|
29天前
|
存储 SQL 关系型数据库
技术同学必会的MySQL设计规约,都是惨痛的教训
怎么才能很好的避免低级故障?以下规范在大型互联网公司经过了充分的验证,尤其适用于并发量大、数据量大的业务场景。
33139 21
|
1月前
|
存储 SQL 缓存
技术干货|云原生数仓AnalyticDB MySQL实时存储引擎演进之路
AnalyticDB MySQL作为一款实时数仓产品,在传统数仓的能力基础上为了支持低延迟的写入、更新场景,架构上设计了实时存储引擎;用户的写入、更新会以append_only的方式写入实时存储引擎,经过compact之后构建索引以支持复杂的计算场景。
|
1月前
|
数据采集 SQL 运维
突破 MySQL 三大技术瓶颈,分布式数据库的技术实践
数据库选型时的五个考量因素 众所周知,分布式数据库自身具备水平扩展、高可用以及数据强一致等特点,除了这些能力,我们还十分看重它是否稳定、是否易运维、是否低成本、是否具备高性能、是否有丰富的生态。 稳定性。当我们将业务迁移至分布式数据库后,服务的稳定性是特别重要的。对于用户来说,他们或许并不在乎一个产品的底层存储是什么,但一定在乎服务是否足够稳定。 易运维。由于分布式数据库的门槛相对较高,如果它能提供一些智能化或平台化的运维工具,我们的运维人员所需的学习成本则会大大降低。 性能。我们希望能在有限的节点,且在可容忍的延迟范围内,考察一下分布式数据库能支撑多大的吞吐量。
|
2月前
|
存储 Oracle 网络协议
PostgreSQL技术大讲堂 - 第24讲:TOAST技术
PostgreSQL从小白到专家,技术大讲堂 - 第24讲:TOAST技术
97 1
|
2月前
|
存储 SQL 缓存
PostgreSQL技术大讲堂 - 第23讲:缓冲区管理器
PostgreSQL从小白到专家,技术大讲堂 - 第23讲:缓冲区管理器
103 0
|
2月前
|
缓存 关系型数据库 数据库
PostgreSQL技术大讲堂 - 第22讲:CLOG作用与管理
从零开始学PostgreSQL技术大讲堂 - 第22讲:CLOG作用与管理
124 0
|
2月前
|
SQL 存储 Oracle
PostgreSQL技术大讲堂 - 第21讲:行可见性规则
从小白到专家,PostgreSQL技术大讲堂 - 第21讲:行可见性规则
127 0
|
3月前
|
Oracle 关系型数据库 数据库
PostgreSQL技术大讲堂 - 第20讲:事务概述与隔离级别
PostgreSQL从小白到专家,技术大讲堂 - 第20讲:事务概述与隔离级别
124 2
|
3月前
|
关系型数据库 数据库 PostgreSQL
PostgreSQL技术大讲堂 - 第19讲:冻结TXIDS概述
从小白到专家系列视频,PostgreSQL技术大讲堂 - 第19讲:冻结TXIDS概述
107 0
推荐文章
更多