大佬们请教一个Flink CDC问题，FlinkSQL写入HDFS，文件是这种形式，这种无法？

大佬们请教一个Flink CDC问题，FlinkSQL写入HDFS，文件是这种形式，这种无法load data inpath 到表中，如果是FlinkSQL + CATALOG 写入hive表，数据没写入成功，也没报错是啥问题？part-f5f4a785-ce07-4691-9a18-7b47541943ce-0-0.inprogress.d32543fa-c6b6-4974-9e43-f9b343feb283

展开

收起

真的很搞笑 2023-07-13 12:07:03 258 版权

2 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

根据您提供的示例文件，这是一种不标准的 JSON 格式，其中每行是一个 JSON 对象。如果您想使用 Flink CDC 将这个格式的数据写入 HDFS，可以考虑使用 Flink 的 JSON 格式化器（JSON Formatter）将数据转换为标准的 JSON 格式。

以下是一个示例代码，演示如何使用 Flink CDC 将数据写入 HDFS。在此示例中，我们使用 Flink 的 JSON 格式化器将数据转换为标准的 JSON 格式，并将其写入 HDFS 中：

sql
Copy
CREATE TABLE my_source (
id INT,
name STRING,
age INT,
phone STRING,
email STRING,
address STRING
) WITH (
'connector' = 'mysql-cdc',
'hostname' = 'localhost',
'port' = '3306',
'username' = 'root',
'password' = 'root',
'database-name' = 'test',
'table-name' = 'my_table'
);

CREATE TABLE my_sink (
data STRING
) WITH (
'connector' = 'filesystem',
'path' = 'hdfs://localhost:9000/path/to/output',
'format' = 'json',
'sink.rolling-policy.file-size' = '128MB',
'sink.rolling-policy.rollover-interval' = '1h'
);

INSERT INTO my_sink
SELECT TO_JSON(ROW(id, name, age, phone, email, address))
FROM my_source;
在这个示例中，我们使用 TO_JSON 函数将每行数据转换为标准的 JSON 格式，并将转换后的结果写入 HDFS 中。在 my_sink 表的配置中，我们指定了 HDFS 的路径和输出格式为 JSON 格式，以及文件的滚动策略。您可以根据实际情况调整这些配置。

2023-07-30 09:37:16

赞同展开评论
Star时光

根据您提供的信息，文件名的格式是 part-f5f4a785-ce07-4691-9a18-7b47541943ce-0-0.inprogress.d32543fa-c6b6-4974-9e43-f9b343feb283。这种文件名不符合 Hive 常规的数据文件命名规则，因此可能无法直接使用 load data inpath 命令将其加载到表中。

Hive 默认情况下，会将数据文件的扩展名识别为特定的文件格式（例如 .txt 为文本格式、.orc 为 ORC 格式）。而您给出的文件名中既没有扩展名，也没有遵循常规的命名规则。

针对这个问题，您可以尝试以下解决方案：

1. 更改文件名：将文件名更改为符合 Hive 命名规则和文件格式的形式。例如，可以将文件名更改为 part-file.txt 或 part-file.orc，以便 Hive 可以正确识别并加载数据。

2. 使用 Flink 的 HiveCatalog 连接器：如果您正在使用 FlinkSQL + Catalog 将数据写入 Hive 表，那么首先确保已正确配置和启动了 Flink 的 HiveCatalog 连接器。然后，通过 FlinkSQL 的 INSERT INTO 语句将数据插入到 Hive 表中，而不是使用 load data inpath 命令。

需要注意的是，Flink SQL 和 Hive 之间可能存在一些差异，特别是在语法和数据格式方面。您可能需要调整 SQL 语句和表的配置，以确保数据可以成功写入 Hive 表中。

2023-07-29 22:35:26

赞同展开评论

大佬们请教一个Flink CDC问题，FlinkSQL写入HDFS，文件是这种形式，这种无法？

实时计算 Flink

相关文章

热门讨论

热门文章