文档备案控制台

开发者社区问答正文

flink 如何读取持续更新的hdfs文件，比如原来有个文件我已经读了，但后来这个文件#Flink

flink 如何读取持续更新的hdfs文件，比如原来有个文件我已经读了，但后来这个文件有了更新我就需要重新读,hdfs上的文件每隔一段时间会被重新覆写 #Flink

展开

收起

黄一刀 2020-05-29 18:04:36 2091 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

黄二刀

2个方案： 1. 定时任务去track hdfs 文件的索引然后用flume读文件 2. 对文件进行新增然后用flume读取，因为flume 不会对文件中新增的数据进行读取它只会根据索引进行判断文件是否已读，flume 读到kafka 然后用flink读取kafka

2020-05-29 18:07:17

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版文件实时计算 Flink版HDFS flink文件存储HDFS版文件存储HDFS版文件实时计算 Flink版hdfs文件

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Flink有使用MinIO替换HDFS么？

303

1

0

flink 读取oss-hdfs数据问题

216

1

0

Flink在oss并没有生成文件是为什么？

172

1

0

在Flink CDC中，怎么没字段 hdfs上文件也是空的？

156

0

0

flink1.18 api流失写入是加载表提示hdfs路径下表不存在

158

0

0

HDFS 在 Flink 作业中面临哪些压力？

110

1

0

各位大佬，请教一下，如果在flink cdc sql客户端使用SQL查询表，怎么能记录原系统的数据

2188

1

0

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

1356

0

0

flink cdc(mysql) -> elasticsearch7, 任务每次持续跑了一段时间之后

1375

2

0

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

1623

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

灵码如何使用skills呢

阿里云服务器镜像系统选哪个比较好？稳定和兼容性如何？

已经实名，但免费API无法使用

灵码编辑器导航栏的前进后退不见了

Swingdeploy搜索不到已有模型

相关文章

基于Flink CDC的企业级日志实时入湖入流解决方案

Flink 实时计算 x SLS 存储下推：阿里云 OpenAPI 网关监控平台实践

【最优潮流】二阶锥松弛在配电网最优潮流计算中的应用（Matlab代码实现）

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

9B 上端侧：多模态实时对话，难点其实在“流”

还有其他疑问?