flink 多source多sink情况怎么循环同时执行

已解决

一个主题对应一张表，现在表个数不固定，想通传参的方式传入程序。目前是初始化env后循环初始化source然后处理完再sink，最后execute。问题是循环中只有第一个主题的数据能读出来然后写出去，后面的都写不进去怎么解决。
如何能循环source和sink能同时去执行。微信截图_20240111100047.png
微信截图_20240111100204.png
微信截图_20240111100239.png

收起

游客j45775l2intaq 2024-01-11 10:08:28 383 发布于北京版权

3 条回答

写回答

取消提交回答

1941623231718325

采纳回答
Apache Flink 的 DataStream API 允许动态创建和注册源(Source)和接收器(Sink)，但你所描述的问题可能是由于程序执行逻辑和并行性设置导致的。在你的场景下，一次性执行循环中的所有任务不是一个有效的做法，因为Flink作业一旦开始执行，其数据流图就会被固定下来。

为了实现动态读取不同主题并将数据写入不同的表，你可以考虑以下解决方案：
1. 使用RuntimeContext: 在Flink作业的任务中，可以通过getRuntimeContext()获取运行时上下文，然后结合广播变量或者累加器来传递主题列表并在算子内部动态切换消费的主题。
2. 动态表源和Sink: 使用Flink 1.10及以上版本提供的Table API和SQL，可以结合Catalog系统动态注册表，但这仍然需要在JobClient端预先知道所有的表信息，并且整体提交一次作业。
3. 多个独立作业: 可以考虑启动多个独立的Flink作业，每个作业对应一个主题到表的处理逻辑，通过外部调度系统（如Airflow, Azkaban, 或者自定义脚本）按需启动和管理这些作业。
4. 自定义Source: 自定义一个Source，使其能够从外部存储（比如数据库、配置中心等）拉取主题列表，并根据列表内容动态订阅Kafka主题。不过要注意并发问题，确保各个主题的消费是并发进行的。
下面是一个简化的示例，展示如何在同一个DataStream作业中处理多个主题（使用Kafka作为Source）：
```
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

List<String> topics = ... // 获取主题列表

topics.forEach(topic -> {
    FlinkKafkaConsumer<String> kafkaSource = new FlinkKafkaConsumer<>(topic, new SimpleStringSchema(), kafkaConfig);

    DataStream<String> streamForTopic = env.addSource(kafkaSource);

    // 对每个主题的数据流进行处理
    DataStream<YourType> processedStream = streamForTopic.map(...);

    // 动态确定表的名称，这里只是一个示例
    String tableName = "table_for_" + topic;

    // 假设有一个动态创建并注册表的方法
    createAndRegisterTable(tableName);

    // 将处理后的数据写入对应的表
    TableResult result = processedStream.executeInsert("catalogName.dbName." + tableName);
});

env.execute("Dynamic Topic Processing Job");
```
这个示例仅供参考，实际上在单个Flink作业中循环添加多个Source并执行可能会遇到并发问题，因为在execute之前必须构建完整的执行图。因此，更推荐采用第3或第4种方案。
2024-01-12 09:44:17 发布于湖北举报

赞同 3 评论

评论
全部评论 (0)
登录后可评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
你可以尝试使用多线程或异步的方式来解决这个问题。在循环中，为每个主题创建一个单独的线程或任务，这样它们就可以同时执行了。以下是一个使用Python的示例：
```
import threading

def process_topic(topic):
    # 初始化source
    source = initialize_source(topic)
    # 处理数据
    processed_data = process_data(source)
    # 初始化sink
    sink = initialize_sink(topic)
    # 写入数据
    write_data(sink, processed_data)

# 获取所有主题
topics = get_all_topics()

# 为每个主题创建一个线程
threads = []
for topic in topics:
    t = threading.Thread(target=process_topic, args=(topic,))
    threads.append(t)
    t.start()

# 等待所有线程完成
for t in threads:
    t.join()
```
这个示例中，我们首先定义了一个process_topic函数，它负责处理单个主题的数据。然后，我们获取所有主题，并为每个主题创建一个线程。最后，我们等待所有线程完成。

注意：这个示例仅适用于Python，如果你使用的是其他编程语言，你需要根据该语言的特性进行调整。
2024-01-11 13:47:34 发布于河南举报

赞同 1 评论

评论
全部评论 (0)
登录后可评论
龙腾九州

深耕大数据和人工智能

你可以尝试使用多线程或异步的方式来解决这个问题。在循环中，为每个主题创建一个单独的线程或任务，这样它们就可以同时执行了。

2024-01-11 11:00:09 发布于河南举报

赞同 1 评论

评论
全部评论 (0)
登录后可评论

flink 多source多sink情况怎么循环同时执行

实时计算 Flink

相关文章

热门讨论

热门文章

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

flink 多source多sink情况怎么循环同时执行

实时计算 Flink

相关文章

热门讨论

热门文章