前言
笔者的上一个项目一切都在有条不紊的推进,直到通过了层层测试来到上线的那一天,实施小哥兴奋地挥舞着刚买到机票的手机,没想到真正的考验正在一步步逼近。
我们本次的项目是为了给我们的用户进行软件升级(因为种种历史原因,原软件代码已经无法维护),自带四百万账单数据,当数据入库完成的那一刻,大家全都安静了,账单结算根本跑不动!!!大量历史数据将查询更改操作无限拖慢,没有办法大家只能使用一些应急技巧,好歹让项目如期上线!
现在二期项目开始了,我们来一起探索这些项目优化点,首当其冲就是数据库!
分区or分表
最开始我们想要采用分表的方法来实现大数据量的问题,但是真正到实施的时候发现大家都没有分表的项目经验。我相信真正的分表项目一定有一套成熟完善的项目管理办法,可能比我们想象的要简单许多,无奈大家都没有大项目经验,只能退而求其次去了解一下分区。
经过了解之后我们发现这种历史数据的问题好像使用分区更加合理!
操作更加简单 ,项目该怎么管理就怎么管理,代码该怎么写还怎么写,不需要做一些很特殊的处理(其实当发现这一条有点的时候我们就决定了方案 ~ 。~);
热点数据相对集中,查询更加高效;
实施起来非常简单,一次实施永久拥有;
网上可以查到很多资料;
工作原理
分区是数据库将你需要存储的数据按照你选择的字段(这个字段是连贯的规律的,比如按时间正序排序的)将一张表中的数据存储到磁盘上的不同位置,形成一个个的数据区域,比如:2017年1月1日到2018年1月1日的所有账单数据存在一个区域内,2018年1月1日到2019年1月1日的所有数据存在一个区域内,当你的查询语句的条件中包含账单时间这个字段时,他会对每个区域开始的那条数据的账单时间和结束的那条数据的账单时间进行扫描,确定你所查询的数据在哪一个数据区域内,然后再去遍历这个这个数据区域,将符合条件的数据查询出来
具体实施
网上可以看到许多分区的资料,但是大多不够贴地气,看起来总是还要自己思考和实验(烦躁的一笔 ~ 。~),但是总结下来也就这么几个需要注意的点:
1.分区所选的字段必须是主键或者是混合主键的一部分,不然会报错:A PRIMARY KEY must include all columns in the table’s partitioning function
比如按时间进行分区操作,需要注意选择的时间要设置为第二主键,混合主键就就像下图这样:
在id和curtime一列的主键栏各点一下就 ok了!混合主键完成!!
那么为啥分区用的字段必须包含主键呢?
上文中我们提到数据库将一张表中的数据按照按照我们选择的字段将数据分割成一个个的数据区域,试想一下,如果id是我们的主键,我们是按照时间分区的,那么当我插入一条数据的时候数据库需要遍历所有的分区的所有的id去辨认我们新插入的id是否重复,这样无疑是低效的!~
2.分区需要的字段必须是int类型的,不然会报:Field ‘xxx’ is of a not allowed type for this type of partitioning。
在网上搜到的分区帖子,大部分都是使用时间去完成分区,可见使用时间分区是最合理的分区方案之一!
既然分区需要int类型那么date或者datetime类型的时间格式肯定需要处理一下子,这个地方可以使用TO_DAYS()方法将日期转换为从1970年1月1日到今天的天数,这个肯定是int类型无疑了。
接下来就是具体实施了:
1、首先在Navicat上建表,字段类型啥的自己定义就可以了
2、字段定义完成之后设置混合主键
3、右键你新建的表,如下
查看对象信息,点击ddl
查看表建立sql语句,在sql语句的最后加上
PARTITION BY RANGE (TO_DAYS(curtime) ) ( PARTITION p201712 VALUES LESS THAN (TO_DAYS('2018-01-01')), PARTITION p201801 VALUES LESS THAN (TO_DAYS('2018-02-01')) )
不要忘记将原来sql语句的;去掉!!!!
这样一个分区的数据库表就建立完成了。
手动新增mysql分区(注意只能在已有分区的表上新增):
ALTER TABLE record1 ADD PARTITION( PARTITION p201902 VALUES LESS THAN (TO_DAYS('2019-03-01')) );
查询是否建立分区成功:
select partition_name part, partition_expression expr, partition_description descr, table_rows from information_schema.partitions where table_schema = schema() and table_name='record1'; --record1查询的表名