请问一下各位大佬，flinkcdc 可以整个库表的数据写入hudi吗，还是只能一张表一张表的来？

展开

收起

真的很搞笑 2023-07-25 20:40:42 240 版权

3 条回答

写回答

取消提交回答

Star时光

Flink CDC 可以整个库表的数据写入 Hudi，不仅限于一张表一张表地写入。

Flink CDC 是用于实时读取关系型数据库中的数据变更，并将其同步到 Hudi 的解决方案。它可以并行读取多个表的数据变更，因此可以将整个库的数据写入到同一个 Hudi 表中。

在实现整个库表数据写入 Hudi 的过程中，需要注意以下几点：

1. 数据分区：在将数据写入 Hudi 时，需要指定数据分区的方式和分区字段等信息。如果多张表的数据都写入到同一个 Hudi 表中，需要保证分区字段的一致性，否则可能会导致数据分区不均衡等问题。

2. 并行度配置：根据集群资源和数据量大小等因素，调整 Flink 任务的并行度，以充分利用集群资源，提高任务执行效率。

3. Hudi 表的写入配置：为了将数据正确地写入 Hudi，需要配置 Hudi 表的路径、分区方式、写入并行度等信息。还可以根据需要配置其他参数，如写入类型、写入模式等。

下面是一个简单的示例代码，演示了如何使用 Flink CDC 将整个库表的数据写入 Hudi：

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.hudi.DataSourceWriteOptions;
import org.apache.hudi.HoodieFlinkWriteConfig;

import java.util.Properties;

public class FlinkCDC2Hudi {
    public static void main(String[] args) throws Exception {
        // 创建 Flink 执行环境和 Table 环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        EnvironmentSettings settings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build();
        StreamTableEnvironment tEnv = StreamTableEnvironment.create(env, settings);

        // 注册 Flink CDC 表，并指定数据源和数据表名称
        Properties props = new Properties();
        props.setProperty("scan.startup.mode", "latest-offset");
        props.setProperty("database-name", "your_database_name");
        props.setProperty("table-name", "your_table_name");
        tEnv.executeSql("CREATE TABLE cdc_table (\n" +
                "  id INT,\n" +
                "  name STRING,\n" +
                "  age INT,\n" +
                "  op STRING\n" +
                ") WITH (\n" +
                "  'connector' = 'cdc',\n" +
                "  'scan.startup.mode' = 'latest-offset',\n" +
                "  'debezium.embedded.enabled' = 'false',\n" +
                "  'debezium.[your_connector_properties]' = '[your_value]'\n" +
                ")");

        // 创建 Hudi 表写入配置
        HoodieFlinkWriteConfig writeConfig = HoodieFlinkWriteConfig.newBuilder()
                .withPath("/path/to/hudi/table")
                .withBulkInsertParallelism(2)
                .withDataSourceWriteOptions(DataSourceWriteOptions.builder().withWriteConcurrency(12).build())
                .build();

        // 将 Flink CDC 表的数据写入 Hudi 表中
        tEnv.executeSql("INSERT INTO hudi_table SELECT id, name, age FROM cdc_table")
                .setRuntimeMode(StreamExecutionEnvironment.RuntimeMode.STREAMING)
                .writeToSink(new HoodieFlinkSink(writeConfig));

        env.execute("FlinkCDC2Hudi");
    }
}

在上述示例代码中，我们首先在 Flink 中注册了一个 Flink CDC 表，用于实时读取关系型数据库中的数据变更。然后，我们创建了一个 Hudi 表写入配置，指定了 Hudi 表的路径、分区方式、写入并行度等信息。最后，通过执行 INSERT INTO 语句将 Flink CDC 表的数据写入到 Hudi 表中。

请根据实际情况修改代码中的数据库连接信息和参数配置。

2023-07-29 17:27:09

赞同展开评论

算精通

北京阿里云ACE会长

Flink CDC 可以实时读取 MySQL、PostgreSQL、Oracle、SQL Server 等关系型数据库中的数据变更，提供了一种将关系型数据库中的数据变更实时同步到 Hadoop 生态系统中的解决方案。而 Hudi 是一种基于 Hadoop 的分布式数据湖技术，可以用于实现数据存储、管理和分析等功能。
在 Flink CDC 和 Hudi 的结合中，可以使用 Flink CDC 实时读取关系型数据库中的数据变更，并将其写入到 Hudi 中。由于 Flink CDC 可以并行读取多个表的数据变更，因此可以将多个表的数据写入到同一个 Hudi 表中，实现整个库的数据写入。
需要注意的是，在将数据写入 Hudi 时，需要指定数据分区的方式和分区字段等信息。如果多张表的数据都写入到同一个 Hudi 表中，需要保证分区字段的一致性，否则可能会导致数据分区不均衡等问题。
下面是一个简单的 Flink CDC 和 Hudi 结合的示例代码，将 MySQL 中的数据变更实时同步到 Hudi 中：
java
Copy
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.hudi.DataSourceWriteOptions;
import org.apache.hudi.HoodieFlinkWriteConfig;
import org.apache.hudi.config.HoodieWriteConfig;
import org.apache.hudi.hive.MultiPartKeysValueExtractor;
import org.apache.hudi.keygen.SimpleKeyGenerator;

import java.util.Properties;

public class FlinkCDC2Hudi {
public static void main(String[] args) throws Exception {
// 创建 Flink 执行环境和 Table 环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
EnvironmentSettings settings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build();
StreamTableEnvironment tEnv = StreamTableEnvironment.create(env, settings);

    // 注册 Flink CDC 表，并指定数据源和数据表名称
    Properties props = new Properties();
    props.setProperty("scan.startup.mode", "latest-offset");
    props.setProperty("database-name", "test");
    props.setProperty("table-name", "user");
    tEnv.executeSql("CREATE TABLE user_cdc (\n" +
            "  id INT,\n" +
            "  name STRING,\n" +
            "  age INT,\n" +
            "  op STRING\n" +
            ") WITH (\n" +
            "  'connector' = 'cdc',\n" +
            "  'scan.startup.mode' = 'latest-offset',\n" +
            "  'debezium.embedded.enabled' = 'false',\n" +
            "  'debezium.mysql.hostname' = '127.0.0.1',\n" +
            "  'debezium.mysql.port' = '3306',\n" +
            "  'debezium.mysql.username' = 'root',\n" +
            "  'debezium.mysql.password' = 'root',\n" +
            "  'debezium.mysql.database.hostname' = '127.0.0.1',\n" +
            "  'debezium.mysql.database.port' = '3306',\n" +
            "  'debezium.mysql.database.user' = 'root',\n" +
            "  'debezium.mysql.database.password' = 'root',\n" +
            "  'debezium.mysql.database.history.instance.name' = 'mysql-binlog',\n" +
            "  'debezium.mysql.server.id' = '1',\n" +
            "  'debezium.mysql.server.name' = 'mysql-server',\n" +
            "  'debezium.mysql.include.schema.changes' = 'true',\n" +
            "  'format' = 'debezium-json'\n" +
            ")");

    // 创建 Hudi 表写入配置
    HoodieFlinkWriteConfig writeConfig = HoodieFlinkWriteConfig.newBuilder()
            .withPath("/path/to/hudi/table")
            .withBulkInsertParallelism(2)
            .withWritePayloadRecordKey("id")
            .withWritePayloadFields("id", "name", "age")
            .withKeyGeneratorClass(SimpleKeyGenerator.class)
            .withPartitionFields("id")
            .withPreCombineField("id")
            .withDataSourceWriteOptions(DataSourceWriteOptions.builder().withWriteConcurrency(12).build())
            .withSchema("id INT, name STRING, age INT")
            .withTable("user")
            .forTable("user")
            .withMultiPartitionsExtractorClass(MultiPartKeysValueExtractor.class)
            .withDeleteParallelism(2)
            .withOperationMapper(HudiOperationMapper.newBuilder().build())
            .withRollbackParallelism(2)
            .withBulkInsertSortMode(BulkInsertSortMode.GLOBAL_SORT)
            .withWriteBufferSize(4 * 1024 * 1024L)
            .withAutoCommit(false)
            .withProps(props)
            .withHoodieWriteConfig(HoodieWriteConfig.newBuilder().build())
            .build();

    // 将 Flink CDC 表的数据写入 Hudi 表中
    tEnv.executeSql("INSERT INTO hudi_table SELECT id, name, age FROM user_cdc")
            .setRuntimeMode(StreamExecutionEnvironment.RuntimeMode.STREAMING)
            .writeToSink(new HoodieFlinkSink(writeConfig));

    env.execute("FlinkCDC2Hudi");
}

}
在上述示例代码中，我们首先在 Flink 中注册了一个 Flink CDC 表，用于实时读取 MySQL 中的数据变更。然后，我们创建了一个 Hudi 表写入配置，指定了 Hudi 表的路径、分区方式、写入并行度、写

2023-07-29 17:15:03

赞同展开评论

芯在这

参考dinky，此回答整理自钉群“【③群】Apache Flink China社区”

2023-07-25 20:47:02

赞同展开评论

请问一下各位大佬，flinkcdc 可以整个库表的数据写入hudi吗，还是只能一张表一张表的来？

实时计算 Flink

相关文章

热门讨论

热门文章