kafka的json消息接入hive表

使用canal-developer-1.1.3，将mysql的数据增量到kafka中，在kafka consume中看到是json类型的数据；如 {"data":[{"id":"11","name":"abcd","age":"112"}],"database":"can_db","es":1560383376000,"id":1,"isDdl":false,"mysqlType":{"id":"int(11)","name":"varchar(40)","age":"int(11)"},"old":null,"pkNames":["id"],"sql":"","sqlType":{"id":4,"name":12,"age":4},"table":"user_test","ts":1560326879510,"type":"INSERT"}

如何将json的数据解析后再将数据同步到hive中。可否使用flume，使用flume的话，配置文件应该怎么写，大家有谁有一样的需求吗。谢谢

原提问者GitHub用户brightsong

展开

收起

云上静思 2023-05-04 12:55:14 373 版权

2 条回答

写回答

取消提交回答

后端老大

可以通过hbase-adapter先消费到hbase，然后hive创建外部表访问hbase

原回答者GitHub用户rewerma

2023-05-05 10:38:19

赞同展开评论
LittlePenguin

随心分享，欢迎友善交流讨论：）

可以尝试使用 Flume 将 Kafka 中的 JSON 数据写入到 HDFS 中，然后使用 Hive 将 HDFS 中的数据导入到 Hive 表中。具体来说，可以按照以下步骤进行操作：

在 Flume 中配置 Kafka Source 和 HDFS Sink：可以使用 Flume 的 Kafka Source 和 HDFS Sink，将 Kafka 中的 JSON 数据写入到 HDFS 中。在配置文件中，需要设置 Kafka Broker 地址、Topic 名称、HDFS 目录等参数。

在 Hadoop 中创建 Hive 表：可以使用 Hive 的 DDL 语句，在 Hadoop 中创建一个 Hive 表，并指定 JSON 数据的字段名和类型。例如：

CREATE EXTERNAL TABLE user_test( id INT, name STRING, age INT ) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' LOCATION 'hdfs://:/';

将 HDFS 中的数据导入到 Hive 表中：可以使用 Hive 的 LOAD DATA INPATH 语句，将 HDFS 中的 JSON 数据导入到 Hive 表中。例如： LOAD DATA INPATH 'hdfs://:/' INTO TABLE user_test;

需要注意的是，在使用 Flume、Hadoop 和 Hive 进行数据处理时，需要对数据进行正确的建模和索引设计，以确保数据能够正确地导入到 Hive 表中，并可以进行查询和分析。同时，还需要进行充分的测试和调试，以保证数据的正确性和业务的稳定性。

2023-05-04 17:59:09

赞同展开评论

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

kafka的json消息接入hive表

相关文章