使用实践:对接Flink常见问题诊断

简介: 本文总结了Hologres对接Flink/Blink时的常见问题以及对应的诊断方法。

本文总结了Hologres对接Flink/Blink时的常见问题以及对应的诊断方法。

Common Sense

1. Hologres性能

写入性能:

列存表  InsertOrIgnore > InsertOrReplace > InsertOrUpdate

行存表  InsertOrReplcae = InsertOrUpdate > InsertOrIgnore


  • InsertOrIgnore: 结果表有主键,实时写入时如果主键重复,丢弃后到的数据
  • InsertOrReplace: 结果表有主键,实时写入时如果主键重复,按照主键更新,如果写入的一行数据不包含所有列,缺失的列的数据补Null
  • InsertOrUpdate: 结果表有主键,实时写入时如果主键重复,按照主键更新,如果写入的一行数据不包含所有列,缺失的列不更新


点查性能: 行存 = 行列混存 > 列存


2.Blink/Flink(VVP)/开源Flink支持程度

产品形态

源表

结果表

维表

Binlog

Hologres Catalog

备注

Flink全托管

支持行、列存

支持行、列存

推荐使用行存

支持

支持

开源Flink1.10

支持行、列存

支持行、列存

-

不支持

不支持

开源Flink1.11

支持行、列存

支持行、列存

推荐使用行存

不支持

不支持

从开源Flink1.11版本开始,Hologres代码已开源,详细使用请参考git

开源Flink1.12

支持行、列存

支持行、列存

推荐使用行存

支持

不支持

Blink独享(贝叶斯)


支持行、列存

支持行、列存

推荐使用行存

Hologres 0.8版本只支持行存

0.9及以上支持行存、列存

推荐使用行存

不支持

已开始逐步下线,推荐使用阿里云Flink全托管

3.Blink/Flink SQL例子:


Blink/VVP/Flink SQL,都是在Flink侧声明一张表,然后根据参数映射至Hologres的一张具体的物理表,所以不支持映射至外表


实时写入慢问题排查流程

步骤1:首先确认写入相关配置

  • 目标表是行存表,还是列存表,还是行列混存
  • Insert模式是InsertOrIgnore、InsertOrUpdate还是InsertOrReplace
  • 确认表的Table group及Shard Count

步骤2:看监控指标的实时写入延迟。

如果平均写入延迟偏高,在百毫秒甚至秒级别,通常便是后端达到了写入瓶颈,这时候有若干种可能:

  1. 使用了列存表的InsertOrUpdate,即局部更新,且流量较高,这种情况下会导致整体实例的CPU负载和写入延迟偏高。解决办法:这种情况下通常建议使用行存表,1.1版本后可以选择行列混存表
  2. 去监控查看整体实例的CPU负载,整体水位接近100%,但没有列存表的局部更新,那么通常情况下是由于高qps的查询,或者本身写入量较高导致的,解决办法:该情况下可以考虑扩容实例资源
  3. 确认是否有不断的Insert into select from,触发了该表的Bulkload写入,当前Bulkload写入会Block实时写入,解决办法:将Bulkload写入也转成实时写入,或者错峰执行

排查步骤3: 看是否有数据倾斜

通过一些sql看下是否有数据倾斜,或者找值班在后台查看是否shard上有数据倾斜。

select count(1) from t1 group by hg_shard_id;

解决办法:修改Distribution key

排查步骤4:后端压力

如果上述步骤检查下来没有明显问题,写入性能突然下降,一般情况是后端集群压力比较大,存在瓶颈。可以找值班确认情况

排查步骤5: 查看Blink/Flink侧的反压情况

如果上述步骤排查下来,发现Hologres侧没有明显的异常,通常情况下是客户端慢了,也就是Blink/Flink侧本身就慢了,这时候可以确认是否是Sink节点反压了。

如果作业只有一个节点,就无法看出是否反压了,这时候可以将Sink节点单独拆开再观察。具体可以请联系Flink技术支持排查。


写入的数据有问题排查流程

这种情况通常是由于数据乱序引起的,比如相同主键的数据分部在不同的Flink Task上,写入的时候无法保序。需要确认Flink SQL的逻辑,最后写出到Hologres的时候,是否按照Hologres表的主键进行Shuffle了。


维表查询问题排查流程

维表join和双流Join

对于读Hologres的场景,需要首先确认用户是否使用对了,是否错将双流Join当成维表Join来使用了。以下是Hologres作为维表的用法,如果少了以下关键字,则会变成双流Join!

维表查询

1. 首先确认维表存储格式

确认是行存表、列存表还是行列混存

2. 维表查询延迟高

维表的使用,最常见的问题就是Flink/Blink侧用户反馈Join节点有反压,导致整个作业的吞吐上不去

排查步骤1: 确认Flink维表Join的模式

当前Hologres Flink Connector的维表Join功能支持同步和异步模式两种,异步模式性能要优于同步模式,具体需要看Flink Sql进行区分,以下是一个开启异步维表查询功能的SQL实例:

注意:这里的async参数,该参数的默认值为False,即如果Flink SQL没有该参数,则没有开启异步模式,可以建议开启异步模式。

CREATE TABLE hologres_dim(

id INT,

len INT,

content VARCHAR

) with (

 'connector'='hologres',

 'dbname'='',  --Hologres的数据库名称。

 'tablename'='',  --Hologres用于接收数据的表名称。

 'username'='',  --当前阿里云账号的AccessKey ID。

 'password'='',  --当前阿里云账号的AccessKey Secret。

 'endpoint'=''  --当前Hologres实例VPC网络的Endpoint。

 'async' = 'true'--异步模式

);

排查步骤2: 确认后端查询延迟

同实时写入一样,依旧去监控界面查看延迟:


  • 确认是否是列存表在做维表,列存表的维表在高QPS场景下开销很高。
  • 如果是行存表,且延迟高,通常情况下是实例整体负载较高导致的,需要进行扩容。


排查步骤3: 确认Join的Key是否是Hologres表的主键

自VVR 4.x (Flink 1.13) 版本开始,Hologres Connector基于Holo Client实现了Hologres表的非主键查询,这种情况通常性能会比较差、实例负载也比较高,尤其是建表没有特别优化过的情况。这时候需要引导优化表结构,最常见的就是将Join的key设置成Distribution Key,这样就能实现Shard Pruning。


排查步骤4 查看Blink侧的反压情况

同写入,同样可以排查是否是Join节点导致的反压。


常见问题

ERPC_ERROR_TIMEOUT或者ERPC CONNECTION CLOSED

出现如下报错:com.alibaba.blink.store.core.rpc.RpcException: request xx UpsertRecordBatchRequest failed on final try 4, maxAttempts=4, errorCode=3, msg=ERPC_ERROR_TIMEOUT,

报错原因:一般是写入压力太大写入失败或者集群比较繁忙,可以观察Holo实例的CPU负载是否打满, CONNECTION CLOSED可能是负载过大导致后端节点挂掉了,OOM或者Coredump。

解决办法:如果是偶尔一次可以正常重试可以忽略;如果频繁出现可以联系值班排查原因。


BackPresure Exceed Reject Limit

报错原因:通常是Hologres后端写入压力过大,导致Memtable来不及刷盘导致写入失败。

解决办法:如偶发失败可忽略该问题,或者Sink加上参数rpcRetries = '100' 来调大写入重试次数。如果一直报该错误,需要联系Hologres值班同学确认后端实例状态。


The requested table name xxx mismatches the version of the table xxx from server/org.postgresql.util.PSQLException: An I/O error occurred while sending to the backend.Caused by: java.net.SocketTimeoutException: Read timed out

报错原因:通常是用户做了Alter Table导致Blink写入所带表的Schema版本号低于Server端版本号导致的,并且超过了客户端的重试次数。

解决办法:

  1. 如果不是经常发生可以忽略该报错
  2. 若是重试多次还是报错,请联系值班同学处理


Failed to query table meta for table

报错原因:对于该报错,一种可能是用户读写了一张Hologres的外表,Hologres Connector不支持读写外表。

如果不是,可能是Hologres实例 Meta出现了问题,联系Hologres值班同学确认


Cloud authentication failed for access id

报错原因:该报错通常是用户配置的AK信息不对,或者用户没有添加账号至Hologres实例。

解决办法:

1.检查当前账户的access id 和access key填写是否正确,一般是access key错误或者有空格。

2.检查不出原因可以用当前ak连接holoweb(使用账号密码方式登录),在测试联通性时看报错是什么,还是一样的报错说明access key有问题,若是报错没有FATAL:role“ALIYUN$xxxx“does not exist,说明账号没有实例的权限,需要管理员给授权。


Hologres维表Join不到数据

确认用户的Hologres维表是不是使用了分区表,Hologres维表暂不支持分区表‘


Modify record by primary key is not on this table

报错原因:实时写入的时候选择了更新模式,但是hologres的结果表没有主键


shard columns count is no match

报错原因:用户写入Hologres的时候,没有写入完整的distribution key的列(默认是主键)


Full row is required, but the column xxx is missing

报错原因:Hologres 老版本的报错信息不是很明显,这个通常是用户没有写某列数据,而那一列是not nullable的

VVP用户读写Hologres导致JDBC连接数暴涨

报错原因:VVP Hologres Connector读写Hologres(除了Binlog),采用JDBC模式,最大占用读写holo表数量*并发度 * connectionSize(VVP表的参数,默认为3)个连接

解决办法:合理规划任务连接数,降低并发度或者connectionSize。如无法调低并发度或connectionSize,可以为表设置参数useRpcMode = 'true' 切回至Rpc模式。

Blink/VVP用户读写Hologres报错显示无法连接Hologres

报错原因:弹外Blink/VVP集群默认访问公网很慢或者无法访问。

解决办法:需要保证和Hologres实例在相同Region,且使用VPC的Endpoint


Hologres rpc mode dimension table does not support one to many join

Blink/VVP的rpc mode维表必须是行存表,且join的字段必须是主键,抛此异常的原因往往是以上两个条件不满足;jdbc模式没有这个要求,但是维表仅推荐使用行存表或者行列共存表。

DatahubClientException

Caused by: com.aliyun.datahub.client.exception.DatahubClientException: [httpStatus:503, requestId:null, errorCode:null, errorMessage:{"ErrorCode":"ServiceUnavailable","ErrorMessage":"Queue Full"}]

大量消费binlog作业由于某种原因同时重启导致线程池被占满,可以分批次恢复作业。


Error occurs when reading data from  datahub

Error occurs when reading data from  datahub, msg: [httpStatus:500, requestId:xxx, errorCode:InternalServerError, errorMessage:Get binlog timeout.]

可能是binlog每条数据太大,乘上攒批之后,每个rpc请求的大小超过限制,在每行数据字段较多且有很长的字符串等字段时,可以减小攒批配置。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
SQL 存储 分布式计算
阿里巴巴瓴羊基于 Flink 实时计算的优化和实践
本⽂整理⾃阿里云智能集团技术专家王柳焮⽼师在 Flink Forward Asia 2023 中平台建设专场的分享。
436 2
阿里巴巴瓴羊基于 Flink 实时计算的优化和实践
|
1月前
|
关系型数据库 MySQL API
Flink CDC产品常见问题之mysql整库同步到starrock时任务挂掉如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
1月前
|
关系型数据库 MySQL API
Flink CDC产品常见问题之读取不到或读取不全消息如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
1月前
|
Oracle 关系型数据库 MySQL
Flink CDC产品常见问题之flink Oraclecdc 捕获19C数据时报错错如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
1月前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
111407 154
阿里云实时计算Flink的产品化思考与实践【下】
|
30天前
|
SQL DataWorks 分布式数据库
实时计算 Flink版产品使用合集之如何与SQLServer实时对接
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
自然语言处理 Java Scala
Flink CDC产品常见问题之大文件整库同步怎么解决
Flink CDC产品常见问题之大文件整库同步怎么解决
|
27天前
|
SQL 数据采集 监控
14个Flink SQL性能优化实践分享
本文档详细列举了Apache Flink SQL的性能调优策略。主要关注点包括:增加数据源读取并行度、优化状态管理(如使用RocksDB状态后端并设置清理策略)、调整窗口操作以减少延迟、避免类型转换和不合理的JOIN操作、使用广播JOIN、注意SQL查询复杂度、控制并发度和资源调度、自定义源码实现、执行计划分析、异常检测与恢复、监控报警、数据预处理与清洗、利用高级特性(如容器化部署和UDF)以及数据压缩与序列化。此外,文档还强调了任务并行化、网络传输优化、系统配置调优、数据倾斜处理和任务调度策略。通过这些方法,可以有效解决性能问题,提升Flink SQL的运行效率。
|
1月前
|
SQL 资源调度 监控
Flink SQL性能优化实践
Apache Flink流处理性能优化指南:探索数据源读取并行度、状态管理、窗口操作的优化策略,包括设置默认并行度、使用RocksDB状态后端、调整窗口大小。调优方法涉及数据源分区、JOIN条件优化、使用Broadcast JOIN。注意SQL复杂度、并发控制与资源调度,如启用动态资源分配。源码层面优化自定义Source和Sink,利用执行计划分析性能瓶颈。异常检测与恢复通过启用检查点,监控任务性能。预处理数据、使用DISTINCT去重,结合UDF提高效率。选择高效序列化框架和启用数据压缩,优化网络传输和系统配置。处理数据倾斜,均衡数据分布,动态调整资源和任务优先级,以提升整体性能。
58 2
|
1月前
|
SQL 运维 DataWorks
Flink CDC在阿里云DataWorks数据集成应用实践
本文整理自阿里云 DataWorks 数据集成团队的高级技术专家 王明亚(云时)老师在 Flink Forward Asia 2023 中数据集成专场的分享。
1198 2
Flink CDC在阿里云DataWorks数据集成应用实践

热门文章

最新文章