请问flink 写iceberg之后在通过flink 读iceberg 流式的拿不到变更吗？

问题1:请问flink 写iceberg之后在通过flink 读iceberg 流式的拿不到变更吗？
问题2:需要怎么拿啊有demo吗，定义一个table映射到iceberg表上直接select拿的到吗

展开

收起

真的很搞笑 2023-07-25 20:33:12 228 版权

3 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

使用 Flink 读取 Iceberg 表时，如果您使用的是 Flink 的 IcebergInputFormat 或者 IcebergTableSource，那么默认情况下是可以读取到表中的变更的。这是因为 IcebergInputFormat 和 IcebergTableSource 会利用 Iceberg 提供的 Snapshot API，在每次读取数据时都会获取最新的表快照，并读取表的变更历史记录，从而可以读取到表中的新增、修改和删除操作。
例如，在使用 Flink 读取 Iceberg 表时，您可以使用以下代码来创建 Flink 的 IcebergTableSource：
reasonml
Copy
// 创建 Flink TableEnvironment
TableEnvironment tableEnv = TableEnvironment.create(env);

// 创建 Iceberg catalog
Catalog catalog = new HadoopCatalog("s3://bucket/path/to/catalog", new Configuration());
tableEnv.registerCatalog("my_catalog", catalog);

// 创建 Iceberg table
tableEnv.useCatalog("my_catalog");
tableEnv.executeSql("CREATE TABLE my_table (id INT, name STRING) " +
"WITH ('connector' = 'iceberg', " +
" 'catalog-name' = 'my_catalog', " +
" 'database-name' = 'my_database', " +
" 'table-name' = 'my_table')");

// 读取 Iceberg table
Table table = tableEnv.sqlQuery("SELECT * FROM my_table");
在上述代码中，我们使用 Flink 的 IcebergTableSource 来读取 Iceberg 表中的数据。IcebergTableSource 会利用 Iceberg 提供的 Snapshot API，读取最新的表快照，并读取表的变更历史记录，从而可以读取到表中的新增、修改和删除操作。

2023-07-29 18:27:39

赞同展开评论
Star时光
问题1：在使用 Flink 写入 Iceberg 后，通过 Flink 读取 Iceberg 表的流式数据，是可以获取到变更的。只是需要注意的是，获取到的数据可能不会立即反映最新的变更，而是有一定的延迟。

问题2：要获取变更数据，可以通过定义一个 Table 对象来映射到 Iceberg 表，并使用 Flink 的 SQL 查询语句进行操作。您可以使用类似以下的示例代码来实现：
```
// 注册 Iceberg Catalog
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

String icebergCatalogName = "myIcebergCatalog";
String icebergWarehousePath = "hdfs://localhost:9000/iceberg/warehouse";

tableEnv.registerCatalog(icebergCatalogName, new IcebergCatalog(icebergWarehousePath));

// 定义 Iceberg 表
String tableName = "myIcebergTable";
String schema = "CREATE TABLE " + tableName + " (id INT, name STRING)";
String icebergTableIdentifier = icebergCatalogName + "." + tableName;

tableEnv.executeSql(schema);
Table icebergTable = tableEnv.from(icebergTableIdentifier);

// 查询数据
Table result = tableEnv.sqlQuery("SELECT * FROM " + icebergTableIdentifier);
tableEnv.toAppendStream(result, Row.class).print();

env.execute();
```
上述示例代码中，假设已经注册了名为 myIcebergCatalog 的 Iceberg Catalog，并在 hdfs://localhost:9000/iceberg/warehouse 目录下创建了一个名为 myIcebergTable 的 Iceberg 表。然后通过 Flink 的 sqlQuery 方法执行查询，并通过 toAppendStream 将查询结果以流的形式输出。

请注意，这只是一个简单的示例，具体的实现方式取决于您的业务需求和环境设置。您可以根据实际情况进行调整和扩展。

此外，为了保证能够获取到最新的变更数据，可能需要配置适当的水位线和处理时间等参数，以确保 Flink 作业能够及时更新 Iceberg 表中的数据变更。
2023-07-29 17:38:20

赞同展开评论
芯在这

回答1:拿的到，就是没那么快，拿到的都是变更后的数据，此回答整理自钉群“【③群】Apache Flink China社区”

2023-07-25 20:40:41

赞同展开评论

请问flink 写iceberg之后在通过flink 读iceberg 流式的拿不到变更吗？

实时计算 Flink

相关文章

热门讨论

热门文章

请问flink 写iceberg之后 在通过flink 读iceberg 流式的 拿不到变更吗？

实时计算 Flink

相关文章

热门讨论

热门文章

请问flink 写iceberg之后在通过flink 读iceberg 流式的拿不到变更吗？