Greenplum数据增量导入的唯一值自增处理-阿里云开发者社区

开发者社区> 窦贤明> 正文

Greenplum数据增量导入的唯一值自增处理

简介: 阿里云的Greenplum(以下简称GP)已经公测了一段时间,陆续接到很多用户的反馈。其中一些使用上的问题比较有趣,在这里与大家分享一下。 其中一个case是字段的唯一键和自增值问题。在导入GP之前,某id字段已经保证了唯一性,但在此次导入之后,可能会有更多的导入,这个时候希望GP在原来最大id值的基础上自增。 GP是在PostgreSQL(以下简称PG)上开发而来,其操作基本沿用。在
+关注继续查看

阿里云的Greenplum(以下简称GP)已经公测了一段时间,陆续接到很多用户的反馈。其中一些使用上的问题比较有趣,在这里与大家分享一下。

其中一个case是字段的唯一键和自增值问题。在导入GP之前,某id字段已经保证了唯一性,但在此次导入之后,可能会有更多的导入,这个时候希望GP在原来最大id值的基础上自增。

GP是在PostgreSQL(以下简称PG)上开发而来,其操作基本沿用。在PG上,实现自增的方法是通过serial:

postgres=> create table tuniq(id serial, name text);
CREATE TABLE
postgres=> insert into tuniq (name) values('zero');
INSERT 0 1
postgres=> insert into tuniq (name) values('second');
INSERT 0 1
postgres=> 
postgres=> 
postgres=> select * from tuniq;
 id |  name  
----+--------
  1 | zero
  2 | second
(2 rows)

这里的serial,并不是一个数据类型,而是通过建立一个全局序列“tuniq_id_seq”(表名_字段名_seq)实现的,每次插入的时候会从这个seq中取值作为字段的默认值,从而做到自增。

那么,如果你执行下面的语句会怎么样?

postgres=> insert into tuniq (id, name) values(1, 'second');

在id没有唯一约束的情况下,这是可以执行成功的。原因是id字段并没有加任何约束,而serial只是简单的从sequence给id赋值而已。这样就带来一个问题:

postgres=> select * from tuniq;
 id |  name  
----+--------
  1 | zero
  2 | second
  1 | second
(3 rows)

如果在这个字段上有唯一约束的话,那么开始的时候导入包括id在内的数据,之后执行不包括id的插入的时候,就会去从sequence取值。而这个时候,因为sequence的当前最新值尚未更新,所以可能会出现与已导入数据冲突的情况,如:

postgres=> create table tuniq(id serial unique, name text);
CREATE TABLE
postgres=> 
postgres=> 
postgres=> insert into tuniq values(0, 'zero');
INSERT 0 1
postgres=> insert into tuniq values(1, 'first');                                                                                                                                                           INSERT 0 1
postgres=> select * from tuniq;                                                                                                                                                                             id | name  
----+-------
  0 | zero
  1 | first
(2 rows)

postgres=> insert into tuniq (name) values('second');
ERROR:  duplicate key value violates unique constraint "tuniq_id_key"
DETAIL:  Key (id)=(1) already exists.

这个问题的解决方法也很简单:

postgres=> select setval('tuniq_id_seq', max(id)) from tuniq;
 setval 
--------
      1
(1 row)

postgres=> insert into tuniq (name) values('second');
INSERT 0 1
postgres=> select * from tuniq;
 id |  name  
----+--------
  0 | zero
  1 | first
  2 | second
(3 rows)

更详细的用法和解释参考这里

那如果是开始加了唯一键约束,但没有采用serial该如何实现字段的继续递增?

正所谓:知其然,知其所以然。serial的原理,不过是从sequence取值作为字段的默认值而已。那如果想要做到类似的方式,用同样的方式做就好了。

让我们模拟一下这个场景:

postgres=> create table tuniq(id int unique, name text); 
NOTICE:  CREATE TABLE / UNIQUE will create implicit index "tuniq_id_key" for table "tuniq"
CREATE TABLE
postgres=> 
postgres=> insert into tuniq(id, name) values(0, 'zero');
INSERT 0 1
postgres=> insert into tuniq(id, name) values(1, 'first');
INSERT 0 1
postgres=> insert into tuniq(id, name) values(2, 'second');
INSERT 0 1
postgres=> 
postgres=> select * from tuniq ;
 id |  name  
----+--------
  1 | first
  0 | zero
  2 | second
(3 rows)

这个数据已经导入完成,后续想让id键自增的话,需要先建一个sequence,并更新到最新的值:

postgres=> create sequence tuniq_id_seq;
CREATE SEQUENCE
postgres=> 
postgres=> select setval('tuniq_id_seq', max(id)) from tuniq;
 setval 
--------
      2
(1 row)

postgres=> 
postgres=> ALTER TABLE tuniq  ALTER id  set default nextval('tuniq_id_seq'::regclass);
ALTER TABLE

这个时候,就可以把sequence的值作为tuniq表id字段的默认值了,如:

postgres=> insert into tuniq(name) values('third');
INSERT 0 1
postgres=> 
postgres=> 
postgres=> select * from tuniq;
 id |  name  
----+--------
  1 | first
  3 | third
  0 | zero
  2 | second
(4 rows)

从以上我们可以看出,用PG/GP的自增需要注意:

  1. serial是通过sequence设置字段的默认值
  2. 可以考虑加上唯一约束,防止主动插入该字段的值,破坏该字段值的自增序和唯一性(如果业务关心的话)

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《Greenplum5.0 最佳实践》 迁移数据使用Gptransfer
使用 gptransfer 完成 GPDB 集群间数据迁移任务
4574 0
使用Boost.PropertyTree处理XML、JSON和INI数据
Boost.PropertyTree 应该是 Boost 1.41.0 开始正式加入 Boost 版本的。目前 ( 2010/02/28 ) 能下到的最新版本是 1.42.0。 主要作用/应用场合 Boost.PropertyTree 提供了一种结构化的数据存储容器。
1425 0
数据上云,应该选择全量抽取还是增量抽取?
数据抽取是指从源数据抽取所需要的数据, 是构建数据中台的第一步。 数据源一般是关系型数据库,近几年,随着移动互联网的蓬勃发展,出现了其他类型的数据源,典型的如网站浏览日期、APP浏览日志、IoT设备日志从技术实现方式来讲,从关系型数据库获取数据,可以细分为全量抽取、增量抽取2种方式,两种方法分别适用于不用的业务场景 增量抽取 时间戳方式用时间戳方式抽取增量数据很常见,业务系统在源表上新增一个时间戳字段,创建、修改表记录时,同时修改时间戳字段的值。
2397 0
+关注
窦贤明
阿里云数据库团队产品与内核开发,HybridDB for PostgreSQL / RDS for PostgreSQL / RDS for PPAS
11
文章
7
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载