实时计算 Flink版产品使用合集之可以使用高并发大内存的方式读取存量数据吗

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

问题一:Flink CDC是不是可以用外表或者其他工具先把全量灌进去?


Flink CDC是不是可以用外表或者其他工具先把全量灌进去?


参考回答:

是的,除了使用 Flink CDC 直接从源头读取全量数据外,也可以先使用其他工具将全量数据灌入数据库,然后再通过 Flink CDC 接收增量数据。

常见的工具包括 Apache Kafka、MySQL binlog、Apache NiFi 和 Apache Nifi Kafka Source 等。其中,Apache Kafka 和 MySQL binlog 可以实现实时增量数据的发送和接收,而 Apache NiFi 和 Apache Nifi Kafka Source 可以实现批量全量数据的传输。

如果您想使用其他工具将全量数据灌入数据库,建议您首先确定源数据表的格式和结构,然后选择合适的工具进行传输。例如,如果源数据表为 CSV 格式,可以考虑使用 Apache NiFi 或 Apache Nifi Kafka Source 进行传输。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/567033


问题二:有人用过flink-SQL-cdc吗?


有人用过flink-SQL-cdc吗?读取数据库的存量数据如:20亿的数据,存了个80G ,难道需要设置100G的内存将存量数据读取进来吗?是有什么配置可以一次不要读取那么多,少读一点。有大佬知道吗?你是说,存量数据使用高并发大内存,增量数据根据检查点重新配置并行度和内存在继续处理是吗?


参考回答:

用flinkcdc的断点续传可以实现吧,是这个意思,我记得并行度不能直接调吧在flinksql里面,调完checkpoint恢复不了,内存大小应该可以调.完全不用,最多是JM多点内存分片元数据,TM内存搞小点,慢慢来就行了,比如JM 8G,TM每个slot 8G,通常tm slot数和全量同步成正比,你搞成1个slot也行,就是慢点,搞成64个slot也行,那差不多有60倍吞吐


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/567032


问题三:Flink CDC进到这个里面然后怎么测呢?


Flink CDC进到这个里面然后怎么测呢?


参考回答:

写个sql表的ddl,然后select 一下看看有没有数据

那你用de的这个编码才对 decoderbufs


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/567029


问题四:flink1.18支持sql-gateway每次提交生成一个yarn application吗?


flink1.18支持sql-gateway每次提交生成一个yarn application吗?


参考回答:

Apache Flink 1.18 版本已经支持将每个 SQL 请求作为一个独立的 YARN Application 进行提交的功能,这就是所谓的 "YARN per Job" 模式。在这种模式下,每次 SQL 请求都会创建一个新的 YARN Application 来执行相应的任务。

要启用这种模式,您需要在 YARN 配置文件中设置以下选项:

yarn.application.classpath=${HADOOP_CONF_DIR},${HADOOP_COMMON_HOME}/share/hadoop/common/*,
${HADOOP_COMMON_HOME}/share/hadoop/common/lib/*,
${HADOOP_HDFS_HOME}/share/hadoop/hdfs/*,
${HADOOP_HDFS_HOME}/share/hadoop/hdfs/lib/*,
${HADOOP_YARN_HOME}/share/hadoop/yarn/*,
${HADOOP_YARN_HOME}/share/hadoop/yarn/lib/*

此外,您还需要在 Flink 配置文件中设置 execution.runtime-mode 参数为 cluster,并将 yarn-session.target-application-num 设置为 1,以确保每次请求都启动一个新的 YARN Application。

注意,Flink SQL Gateway 本身并不直接支持这种模式,但它可以通过与 Flink 运行时之间的交互来实现这种功能。因此,在实际使用过程中,您需要确保 Flink SQL Gateway 和 Flink 运行时之间能够正常通信,并且它们都已正确配置为使用 "YARN per Job" 模式。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566836


问题五:Flink CDC oracle 的 number 类型做主键,这个问题大家遇到没?


Flink CDC oracle 的 number 类型做主键,oracleCDC 可以捕获变更,但是不能解析主键值,导致后面输出源,不能更新,这个问题大家遇到没?


参考回答:

如果 Oracle CDC 可以捕获到 number 类型作为主键的变更事件,但是无法解析主键值,则可能是由于 Oracle 数据类型转换的原因。为了确保 Oracle CDC 正确解析 number 类型作为主键值,请确保如下事项:

  1. 验证源数据库中的 number 类型是否支持转换为 Bigint 类型。
  2. 确保您的 Oracle CDC 源连接器配置正确,以正确识别 number 类型作为主键。
  3. 如果有必要,可尝试更改您的业务逻辑以适应 Oracle CDC 的限制。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/567025


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
5天前
|
消息中间件 Java 关系型数据库
实时计算 Flink版操作报错合集之从 PostgreSQL 读取数据并写入 Kafka 时,遇到 "initial slot snapshot too large" 的错误,该怎么办
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
560 0
|
5天前
|
存储 SQL 关系型数据库
实时计算 Flink版操作报错合集之按时间恢复时,报错:在尝试读取binlog时发现所需的binlog位置不再可用,该怎么办
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
492 0
|
2天前
|
存储
数据在内存中的存储(2)
数据在内存中的存储(2)
16 5
|
2天前
|
存储 小程序 编译器
数据在内存中的存储(1)
数据在内存中的存储(1)
18 5
|
1天前
|
存储 编译器 C语言
数据在内存中的存储
数据在内存中的存储
10 2
|
1天前
|
存储
数据在内存中的存储(了解数据在内存中的存储规则,看这一篇就够了!)
数据在内存中的存储(了解数据在内存中的存储规则,看这一篇就够了!)
|
5天前
|
消息中间件 资源调度 Java
实时计算 Flink版操作报错合集之遇到了缺少包的错误,已经添加了相应的 jar 包,仍然出现同样的报错,该怎么解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
529 2
|
1天前
|
存储 C语言
C语言----数据在内存中的存储(2)
C语言----数据在内存中的存储
|
1天前
|
存储 C语言
C语言----数据在内存中的存储(1)
C语言----数据在内存中的存储
|
5天前
|
监控 Oracle 关系型数据库
实时计算 Flink版操作报错合集之在配置连接时,添加了scan.startup.mode参数后,出现报错。是什么导致的
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
606 0

热门文章

最新文章

相关产品

  • 实时计算 Flink版