备案控制台

开发者社区问答正文

工作节点 - 与Apache Flink的文件系统关联

我有一个特定的监控系统，每个受监控的服务器上都有数千个本地保存的文件（没有HDFS）。我想用flink来查询这些文件。如果我在每台机器上创建一个工作节点并且它们查询特定文件，主节点将如何知道将此任务发送到相关文件所在的节点？我推荐的一个方法是最小化网络流量并避免在节点之间移动数据。有没有办法以某种方式“暗示”它？

展开

收起

flink小助手 2018-12-10 11:00:12 1987 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

flink小助手

flink小助手会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关flink的问题及回答。

我不确定你的意思是“......使用Flink来查询文件”。您可以创建一个自定义SourceFunction，它知道如何从本地文件读取，然后使用Flink解析/处理本地文件，并通过可查询状态公开结果。如果此流中没有分区，则所有这些链式运算符将在任务管理器上的相同插槽中运行，从而最小化网络流量。
您希望将SourceFunction的并行度设置为等于节点数（以及任务管理器的数量）。但是你仍然需要确保Flink不会在同一个任务管理器上运行两个相同的SourceFunction，因此在相同的节点上运行，这对你不起作用。
通常，Flink不会为精确放置任务提供太多支持。我认为如果你将taskmanager.numberOfTaskSlots设置为1，那么这可能会迫使它为每个任务管理器部署一个单独的SourceFunction（以及跟随它的链式运算符），但是你必须尝试一下。

2019-07-17 23:19:05

赞同展开评论

问答分类：

监控 Apache 流计算实时计算 Flink版

问答标签：

实时计算 Flink版Apache Apache flink 实时计算 Flink版节点实时计算 Flink版文件系统节点实时计算 Flink版

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Apache Helix 如何处理持有分布式锁的节点意外退出后的锁资源分配问题？

109

1

0

怎么指定将任务发送到flink cdc集群的哪个节点？

141

1

0

给pgsql集群做flink cdc的用从节点ip连接刚开始正常,十几分钟报错怎么回事？

104

1

0

在Flink CDC中，难道从节点的slot是动态的隐藏了?

104

1

0

在Flink CDC中，从节点是只读权限用从节点连接cdc 但又能正常运行为什么呀？

88

0

0

在Flink CDC中一个job节点两个task节点，数量能设置为更多吗？

81

1

0

Apache Flink 中节点不持久化低水印有何影响？

82

1

0

Flink sink节点的SinkMaterialize怎么关闭

421

1

0

Flink维表Join时Join节点一直处于INITIALIZING状态

211

1

0

在Flink CDC中如何指定TM在某个节点上面执行？

64

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

如何用"乐高式开发"实现前后端分离？

阿里云短信服务工程师连我方发送记录只会收阿里云错误码都不知道吗？

调用Dashscope接口时报错

qwen3-32b和qwen-2.5-32b-Instruct有什么区别

我就想把本地的 vm 虚拟机迁移到 ECS，整的这些文档又臭又长，有这精力你录个视频不行吗？

相关文章

深入理解JVM最后一章《常见问题排查思路与调优案例 - 综合实战》

《吐血整理》进阶系列教程-拿捏Fiddler抓包教程(9)-Fiddler如何设置捕获Https会话

企业上网监控系统的恶意 URL 过滤 Node.js 布隆过滤器算法

如何设置阿里云CDN的流量阈值以避免超额费用？

从0到1掌握京东API：商品列表获取技巧与避坑指南

还有其他疑问?