通过开源Flink读写云原生数据仓库AnalyticDB PostgreSQL

本文涉及的产品
PolarClaw,2核4GB
云数据库 PolarDB MySQL 版,列存表分析加速 4核8GB
简介: 本文介绍如何通过开源Flink版实时读写云原生数据仓库AnalyticDB PostgreSQL(以下简称ADB PG版,原分析型数据库PostgreSQL版)数据,包括版本限制、网络要求、操作步骤、类型映射和参数支持等。

ADB PG版基于Flink 自定义conenctor支持读取(维表)和写入(结果表)。通过Flink SQL即可实现对ADB PG版的访问。

前提条件

版本要求

Flink 1.11及以上版本

ADBPG 6.0版本;

网络要求

ADBPG实例与Flink实例在同一VPC下;

ADBPG设置白名单,开放对Flink实例的网络访问。


操作步骤

设置ADBPG实例

1、购买6.0版本ADBPG实例,创建账号,并设置白名单:

2、连接数据库,创建待写入目标表、和待查询源数据表:

create table test6(a int,b text,c text,d int,e int, f int, g bigint, h float, i double precision, j boolean);

insert into test6 values(0 ,'b0', 'c0', 40,  50,    60,    70,       80.1,    90.1,     'true');

insert into test6 values(0 ,'b0', 'c0', 40,  50,    60,    70,       80.2,    90.2,     'false');

insert into test6 values(1 ,'b1', 'c1', 41,  50,    60,    70,       80.1,    90.1,     'true');

insert into test6 values(1 ,'b1', 'c1', 41,  50,    60,    70,       80.2,    90.2,     'false');

insert into test6 values(2 ,'b2', 'c2', 40,  50,    60,    70,       80.1,    90.1,     'true');

insert into test6 values(2 ,'b2', 'c2', 40,  50,    60,    70,       80.2,    90.2,     'false');

insert into test6 values(3 ,'b3', 'c3', 40,  50,    60,    70,       80.1,    90.1,     'true');

insert into test6 values(3 ,'b3', 'c3', 40,  50,    60,    70,       80.2,    90.2,     'false');

insert into test6 values(4 ,'b4', 'c4', 40,  50,    60,    70,       80.1,    90.1,     'true');

insert into test6 values(4 ,'b4', 'c4', 40,  50,    60,    70,       80.2,    90.2,     'false');

insert into test6 values(5 ,'b5', 'c5', 40,  50,    60,    70,       80.1,    90.1,     'true');

insert into test6 values(5 ,'b5', 'c5', 40,  50,    60,    70,       80.2,    90.2,     'false');

insert into test6 values(6 ,'b6', 'c6', 40,  50,    60,    70,       80.1,    90.1,     'true');

insert into test6 values(6 ,'b6', 'c6', 40,  50,    60,    70,       80.2,    90.2,     'false');

insert into test6 values(7 ,'b7', 'c7', 40,  50,    60,    70,       80.1,    90.1,     'true');

insert into test6 values(7 ,'b7', 'c7', 40,  50,    60,    70,       80.2,    90.2,     'false');

insert into test6 values(8 ,'b8', 'c8', 40,  50,    60,    70,       80.1,    90.1,     'true');

insert into test6 values(8 ,'b8', 'c8', 40,  50,    60,    70,       80.2,    90.2,     'false');

insert into test6 values(9 ,'b9', 'c9', 40,  50,    60,    70,       80.1,    90.1,     'true');

insert into test6 values(9 ,'b9', 'c9', 40,  50,    60,    70,       80.2,    90.2,     'false');

create table test7(a int,b text,c text,d int,e int, f int, g bigint, h float, i double precision, j boolean, k int,l text,m text,n int,o int, p int, q bigint, r float, s double precision, t boolean);


Flink作业开发

1、创建Flink vvp版实例,要保证Flink实例与ADBPG实例处于同一个VPC下;

2、创建SQL作业

3、作业开发

代码参考:

CREATE TEMPORARY TABLE datagen_source2(

 a INT,

 b VARCHAR,

 c CHAR(15),

 d TINYINT,

 e SMALLINT,

 f INT,

 g BIGINT,

 h FLOAT,

 i DOUBLE,

 j BOOLEAN,

 `proctime` AS PROCTIME()

) with (

 'connector' = 'datagen'

);


CREATE TEMPORARY TABLE adbpg_dim2 (

 a INT,

 b VARCHAR,

 c CHAR(15),

 d TINYINT,

 e SMALLINT,

 f INT,

 g BIGINT,

 h FLOAT,

 i DOUBLE,

 j BOOLEAN

) with (

  'connector' = 'adbpg',

  'password' = 'password',

  'tablename' = 'tablename',

  'username' = 'username',

  'url' = 'jdbc:postgresql://url:port/databasename',

  'maxretrytimes' = '2',

  'connectionmaxactive' = '5',

  'targetschema' = 'public',

  'casesensitive' = '0',

  'retrywaittime' = '200',

  'cache' = 'lru',

  'cacheSize'= '1000000',

  'cacheTTLMs' = '2000000000');


CREATE TEMPORARY TABLE adbpg_sink2(

 a INT,

 b VARCHAR,

 c CHAR(15),

 d TINYINT,

 e SMALLINT,

 f INT,

 g BIGINT,

 h FLOAT,

 i DOUBLE,

 j BOOLEAN,

 k INT,

 l VARCHAR,

 m CHAR(15),

 n TINYINT,

 o SMALLINT,

 p INT,

 q BIGINT,

 r FLOAT,

 s DOUBLE,

 t BOOLEAN

) with (

  'connector' = 'adbpg',

  'password' = 'password',

  'tablename' = 'tablename',

  'username' = 'username',

  'url' = 'jdbc:postgresql://url:port/databasename',

  'maxretrytimes' = '2',

  'batchsize' = '100',

  'connectionmaxactive' = '5',

  'conflictmode' = 'ignore',

  'usecopy' = '0',

  'targetschema' = 'public',

  'exceptionmode' = 'ignore',

  'casesensitive' = '0',

  'writemode' = '0',

  'retrywaittime' = '200'

);


insert into adbpg_sink2 select T.a, T.b, T.c, T.d, T.e, T.f, T.g, T.h, T.i, T.j, H.a, H.b, H.c, H.d, H.e, H.f, H.g, H.h, H.i, H.j FROM datagen_source2 AS T JOIN adbpg_dim2 FOR SYSTEM_TIME AS OF T.proctime AS H ON MOD(T.a, 10) = H.a;

4、上传jar包:

https://adbpg-public.oss-cn-beijing.aliyuncs.com/flink-connector-adbpg-1.11.1-jar-with-dependencies.jar


5、运行上线:

点击验证、运行、上线,观察日志和数据库判断是否有异常,是否成功写入数据库。

13.png

维表参数说明

参数名

参数含义

备注

url

ADBPG连接地址

必填,需要填写内网连接地址。

tableName

ADBPG源表名

必填,填写维表对应的ADBPG数据仓库中的表名。

userName

ADBPG用户名

必填。

password

ADBPG密码

必填。

joinMaxRows

左表一条记录连接右表的最大记录数

非必填,表示在一对多连接时,左表一条记录连接右表的最大记录数(默认值为1024)。在一对多连接的记录数过多时,可能会极大的影响流任务的性能,因此您需要增大Cache的内存(cacheSize限制的是左表key的个数)。

maxRetryTimes

单次SQL失败后重试次数

非必填,实际执行时,可能会因为各种因素造成执行失败,比如网络或者IO不稳定,超时等原因,ADBPG维表支持SQL执行失败后自动重试,用maxRetryTimes参数可以设定重试次数。默认值为3。

connectionMaxActive

连接池最大连接数

非必填,ADBPG维表中内置连接池,设置合理的连接池最大连接数可以兼顾效率和安全性,默认值为5。

retryWaitTime

重试休眠时间

非必填,每次SQL失败重试之间的sleep间隔,单位ms,默认值100

targetSchema

查询的ADBPG schema

非必填,默认值public

caseSensitive

是否大小写敏感

非必填,默认值0,即不敏感;填1可以设置为敏感;

cache

缓存策略

目前分析型数据库PostgreSQL版支持以下三种缓存策略:

  • none(默认值):无缓存。
  • lru:缓存维表里的部分数据。源表来一条数据,系统会先查找Cache,如果没有找到,则去物理维表中查询。需要配置相关参数:缓存大小(cacheSize)和缓存更新时间间隔(cacheTTLMs)。

cacheSize

设置LRU缓存的最大行数

非必填,默认为10000行

cacheTTLMs

缓存更新时间间隔。系统会根据您设置的缓存更新时间间隔,重新加载一次维表中的最新数据,保证源表能JOIN到维表的最新数据。

非必填,单位为毫秒。默认不设置此参数,表示不重新加载维表中的新数据。


结果表参数说明

参数

注释说明

是否必选

备注

type

类型

固定值,为adbpg

url

jdbc连接地址

分析型数据库PostgreSQL版数据库的jdbc连接地址 。

格式为:'jdbc:postgresql://<yourNetworkAddress>:<PortId>/<yourDatabaseName>'

其中<yourNetworkAddress>为目标分析型数据库PostgreSQL版数据库的主机地址,<PortId>为连接端口,<yourDatabaseName>为连接的数据库。

示例:url=’jdbc:postgresql://gp-xxxxxx.gpdb.cn-chengdu.rds.aliyuncs.com:5432/postgres‘

tableName

表名

无。

username

账号

无。

password

密码

无。

maxRetryTimes

写入重试次数

默认为3。

useCopy

是否采用copy API写入数据

默认为1,表示采用copy API方式写入;

当取值为0时,代表根据writeMode字段采用其他方式写入数据。

batchSize

一次批量写入的条数

默认值为5000。

exceptionMode

当存在写入过程中出现异常时的处理策略

支持以下两种取值:

1)"ignore": 忽略出现导致写入异常的数据;

2)"strict": 日志记录导致写入异常的数据,然后停止任务;

默认取值为"ignore"

conflictMode

当出现主键冲突或者唯一索引冲突时的处理策略

支持以下三种取值:

1)"ignore": 忽略出现导致主键冲突的数据;

2)"strict": 日志记录导致主键冲突的数据,然后停止任务;

3)"update":当出现主键冲突时更新为新值。

4) "upsert": 以insert on conflict方式处理主键冲突。

默认取值为"ignore"

targetSchema

schema名称

默认值为"public"

writeMode

在useCopy字段基础上,更细分的写入方式

默认值为1,代表采用copy API写入数据;

在useCopy字段为0的场景下,可以设定writeMode字段采用其他写入方式:

writeMode=0 :采用insert方式写入数据;

writeMode=2:采用upsert方式写入数据。

upsert含义见文档

注意采用upsert方式写入时需要设定主键字段,设定主键的方式参考示例语句。

/

相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
12月前
|
存储 消息中间件 OLAP
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
本文整理自淘天集团高级数据开发工程师朱奥在Flink Forward Asia 2024的分享,围绕实时数仓优化展开。内容涵盖项目背景、核心策略、解决方案、项目价值及未来计划五部分。通过引入Paimon和Hologres技术,解决当前流批存储不统一、实时数据可见性差等痛点,实现流批一体存储与高效近实时数据加工。项目显著提升了数据时效性和开发运维效率,降低了使用门槛与成本,并规划未来在集团内推广湖仓一体架构,探索更多技术创新场景。
1869 3
基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
|
消息中间件 存储 监控
Lalamove基于Flink实时湖仓演进之路
本文由货拉拉国际化技术部资深数据仓库工程师林海亮撰写,围绕Flink在实时数仓中的应用展开。文章首先介绍了Lalamove业务背景,随后分析了Flink在实时看板、数据服务API、数据监控及数据分析中的应用与挑战,如多数据中心、时区差异、上游改造频繁及高成本问题。接着阐述了实时数仓架构从无分层到引入Paimon湖仓的演进过程,解决了数据延迟、兼容性及资源消耗等问题。最后展望未来,提出基于Fluss+Paimon优化架构的方向,进一步提升性能与降低成本。
460 11
Lalamove基于Flink实时湖仓演进之路
|
存储 监控 数据挖掘
京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬在Flink Forward Asia 2024的分享,聚焦实时湖仓的探索与建设、应用实践、问题思考及未来展望。内容涵盖京东物流通过Flink和Paimon等技术构建实时湖仓体系的过程,解决复杂业务场景下的数据分析挑战,如多维OLAP分析、大屏监控等。同时,文章详细介绍了基于StarRocks的湖仓一体方案,优化存储成本并提升查询效率,以及存算分离的应用实践。最后,对未来数据服务的发展方向进行了展望,计划推广长周期数据存储服务和原生数据湖建设,进一步提升数据分析能力。
1222 1
京东物流基于Flink & StarRocks的湖仓建设实践
|
8月前
|
存储 JSON 数据处理
Flink基于Paimon的实时湖仓解决方案的演进
本文源自Apache CommunityOverCode Asia 2025,阿里云专家苏轩楠分享Flink与Paimon构建实时湖仓的演进实践。深度解析Variant数据类型、Lookup Join优化等关键技术,提升半结构化数据处理效率与系统可扩展性,推动实时湖仓在生产环境的高效落地。
1016 1
Flink基于Paimon的实时湖仓解决方案的演进
|
8月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
925 1
|
8月前
|
存储 人工智能 监控
淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路
本文整理自淘宝闪购(饿了么)大数据架构师王沛斌在 Flink Forward Asia 2025 上海站的分享,深度解析其基于 Apache Flink 与 Paimon 的 Lakehouse 架构演进与落地实践,涵盖实时数仓发展、技术选型、平台建设及未来展望。
1411 0
淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路
|
11月前
|
资源调度 Kubernetes 流计算
Flink在B站的大规模云原生实践
本文基于哔哩哔哩资深开发工程师丁国涛在Flink Forward Asia 2024云原生专场的分享,围绕Flink On K8S的实践展开。内容涵盖五个部分:背景介绍、功能及稳定性优化、性能优化、运维优化和未来展望。文章详细分析了从YARN迁移到K8S的优势与挑战,包括资源池统一、环境一致性改进及隔离性提升,并针对镜像优化、Pod异常处理、启动速度优化等问题提出解决方案。此外,还探讨了多机房容灾、负载均衡及潮汐混部等未来发展方向,为Flink云原生化提供了全面的技术参考。
613 9
Flink在B站的大规模云原生实践
|
资源调度 Kubernetes 调度
网易游戏 Flink 云原生实践
本文分享了网易游戏在Flink实时计算领域的资源管理与架构演进经验,从Yarn到K8s云原生,再到混合云的实践历程。文章详细解析了各阶段的技术挑战与解决方案,包括资源隔离、弹性伸缩、自动扩缩容及服务混部等关键能力的实现。通过混合云架构,网易游戏显著提升了资源利用率,降低了30%机器成本,小作业计算成本下降40%,并为未来性能优化、流批一体及智能运维奠定了基础。
686 9
网易游戏 Flink 云原生实践
|
Kubernetes Cloud Native 开发者
alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
379 61
|
存储 缓存 数据挖掘
Flink + Doris 实时湖仓解决方案
本文整理自SelectDB技术副总裁陈明雨在Flink Forward Asia 2024的分享,聚焦Apache Doris与湖仓一体解决方案。内容涵盖三部分:一是介绍Apache Doris,一款高性能实时分析数据库,支持多场景应用;二是基于Doris、Flink和Paimon的湖仓解决方案,解决批流融合与数据一致性挑战;三是Doris社区生态及云原生发展,包括存算分离架构与600多位贡献者的活跃社区。文章深入探讨了Doris在性能、易用性及场景支持上的优势,并展示了其在多维分析、日志分析和湖仓分析中的实际应用案例。
1175 17
Flink + Doris 实时湖仓解决方案

热门文章

最新文章

推荐镜像

更多