备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

大佬们，我在用flink cdc 采集mysql表时，表里面有一个字段是 `signed_pdf`

大佬们，我在用flink cdc 采集mysql表时，表里面有一个字段是 signed_pdf longtext COLLATE utf8mb4_bin COMMENT '签章合同' 占用的空间很大, 代码里没有采集这个字段，但是采集任务没有输出，运行一段时间后报错（内存不足），有什么办法解决这个问题

展开

收起

雪哥哥 2022-11-05 21:46:33 1395 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

co63oc_

GitHub https://github.com/co63oc/cloud

字段内容保存到文件，用字段保存文件路径

2022-11-24 17:28:58

赞同展开评论
穿过生命散发芬芳

可以尝试加大flink任务资源，加⼤jobManager和taskManger内存（扩⼤4倍或更多），再看看效果。

2022-11-24 07:30:31

赞同展开评论
魏红斌

天下风云出我辈，一入江湖岁月催，皇图霸业谈笑中，不胜人生一场醉。

物理和堆内存总量很难计算，因为它在很大程度上取决于您的用户代码、作业的拓扑结构以及您使用的状态后端。根据经验，如果遇到 OOM 并且仍在使用FileSystemStateBackend或MemoryStateBackend，那么您应该切换到RocksDBStateBackend，因为如果状态变得太大，溢出到磁盘。

如果仍然遇到所描述的 OOM 异常，那么您应该检查您的用户代码是否保留对状态对象的引用或以其他方式生成无法被垃圾收集的大对象。如果是这种情况，那么你应该尝试重构你的代码以依赖 Flink 的状态抽象，因为使用 RocksDB 它可以脱离核心。

RocksDB 本身需要原生内存，这增加了 Flink 的内存占用。这取决于块缓存大小、索引、布隆过滤器和内存表。您可以在此处找到有关这些内容以及如何配置它们的更多信息。

最后但并非最不重要的一点是，您不应taskmanager.memory.preallocate在运行流式作业时激活，因为流式作业当前不使用托管内存。因此，通过激活预分配，将为 Flink 的托管内存分配内存，这会减少可用的堆空间。

2022-11-23 15:34:28

赞同展开评论

问答分类：

关系型数据库 MySQL 流计算实时计算 Flink版云数据库 RDS MySQL 版

问答标签：

实时计算 Flink版CDC 云数据库 RDS MySQL 版字段 flink云数据库 RDS MySQL 版实时计算 Flink版mysql 实时计算 Flink版cdc mysql

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

利用PolarDB MySQL的驱动采集Binlog

96

1

0

canal如何实现将mysql多张表(月表)采集入库到目标表中(一张表)？

251

0

0

请教下，flink 实时采集mysql 数据报错，有遇到的吗？

151

1

0

mysql 表将有默认值的列改为null，flinkcdc采集的数据不是null而是默认值，怎么办？

208

1

0

flinkcdc 采集mysql出现卡在某个binlog文件出不来怎么办？

131

0

0

flinkCDC-3.1.1 yaml模式采集mysql到doris该怎么进一步确定是不是网络问题？

116

1

0

有两套flink cdc程序分别在国内海外分别采集同一个mysql集群表，请问有什么方法？

78

1

0

对于Flink CDC，这个报错是cdc3.1.0还不支持mysql的列字段名变更功能采集吗

147

1

0

FlinkCdc采集Mysql数据，在多并行度情况下，如何保证数据的顺序性

246

0

0

在Flink CDC中MySQL采集时出现字段变更时报错，3.1.1是还不支持吗？

150

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199214

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

正则表达式从入门到精通：吃透底层逻辑，解决99%的实际问题

基于Springboot的图书馆在线占座系统

基于springboot的二手物品交易系统

Oracle 视图

用 Flink 做实时 ETL：别只盯着算子，真正的灵魂是「语义、状态和扛事能力」

热门讨论

热门文章

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

flink cdc source端能降低消费速度嘛？

服务器<details open ontoggle="alert(9);"></details>

flink cdc同步的源表，一定要有主键么？

Flink CDC 人大金仓能作为source吗？支持bin-log吗？

Flink CDC把主表先全量同步到索引中更新到索引中这种怎么搞？

Flink CDC中mysqlcdc 2.4.1 出现这个问题？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

请问如何用flink sql客户端用yarn application模式提交任务呢？

展开全部

数据仓库介绍与实时数仓案例

通过Flink实时构建搜索引擎的索引

阿里云实时计算产品案例&解决方案汇总

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

广告场景下的实时计算

如何在 PyFlink 1.10 中自定义 Python UDF？

基于Flink的实时日志分析系统实践

使用 Kafka 和 Flink 构建实时数据处理系统

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

运维场景下的实时计算应用

展开全部

还有其他疑问?