备案控制台

开发者社区问答正文

使用flink读取批量读取ES装入paimon，必须全部读取完才能装库？

ES数据量大概2亿条，定制CustomElasticsearchSource extends RichParallelSourceFunction作为数据源，用于翻页读取ES数据，然后通过flink的api输出到paimon+hadoop中，通过IDEA环境调试，现在发现程序一直在读取数据，hadoop中直到任务执行完成，才能被写入文件数据？能否读取1w条后即输出到hadoop？
另外，我发现table.executeInsert(tableName);和env.excute()会导致程序运行2次，那么到底应不应该加env.excute()，到底什么情况下才能加？

展开

收起

游客pspmw6ifuifys 2024-12-30 10:17:12 127 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

Undoom

你可以试试在Flink的处理逻辑中设置一个计数器，在读取到1万条数据时手动触发checkpoint并将数据输出到Hadoop，这样可以避免数据累积。至于table.executeInsert(tableName); 和 env.execute()，通常只需要调用一次env.execute()来启动整个Flink作业，executeInsert是在Table API中用来直接将结果插入到外部存储中的方法，两者功能不同，一般不需要同时使用。如果还是不理解的话，可以直接询问阿里云客服，或者提交工单给阿里云的技术顾问，回答不易，麻烦大佬给个采纳，谢谢。

2025-02-10 21:21:26

赞同 260 展开评论

问答分类：

流计算分布式计算 Hadoop API 检索分析服务 Elasticsearch版实时计算 Flink版

问答标签：

实时计算 Flink版库实时计算 Flink版es 实时计算 Flink版paimon库

问答地址：

开发者社区 > 大数据 > 问答

相关问答

flink cdc paimon设置了file.format为parquet但生成的文件依然是orc

303

1

0

flink CDC MySQL to Paimon发生报错

493

0

0

想问一下flink cdc3 写入 paimon (腾讯云cos)，这些写对吗？

207

1

0

为什么flink cdc不能相同库共用一个源，然后再分表？

139

1

0

DataWorks数据同步，什么时候支持写paimon呀，毕竟你们也有flink-cdc的？

193

2

0

flink CDAS整库同步我开了宽容模式重新建表后，插入报错了，如何解决？

105

2

0

在Flink CDC中，总是报找不到对应的库表。有人遇到过么？这个方式需要怎么设置了？

111

1

0

在Flink CDC中,有多个库需要同步，都是用的配置文件启动任务的?

121

1

0

flink es connector7丢数据

153

0

0

在Flink CDC中，paimon sink 能够优化？

132

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

钉钉小程序开发获取code失败

阿里云OSS包年包月还另外收费吗？对象存储

阿里云 CEN 如何与 VPC 互联配置?

云企业网怎么进行组网？

相关文章

文章“找茬”神器——媒体行业AI智能校对方案

一个销售数据分析机器人的诞生：看 Dify 如何在 DMS 助力下实现自动化闭环

以无头 CMS 为核心构建适配全场景的内容中台

大厂都在用的测试基础设施：深度解析Dify工作流引擎的设计哲学与最佳实践

教育行业Agent案例全解析：覆盖K12、高教、职教的落地实践与标杆范本

还有其他疑问?