开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flinkcdc同步pg到hudi并同步到hive,但hive查不到数据,是什么问题?

flinkcdc同步pg到hudi并同步到hive,但hive查不到数据,是什么问题,而且一查询还报错。hudi0.13编译的时候有对date,int,timestamp做修改,不然编译通过不了。

展开
收起
十一0204 2023-08-09 09:02:09 192 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    当使用 Flink CDC 将数据从 PostgreSQL(PG)同步到 Hudi,并同时将数据从 Hudi 同步到 Hive 时,出现查询不到数据和报错的问题,可能有以下几个可能的原因:

    数据同步延迟:首先,确保数据同步完成并且同步到 Hudi 和 Hive 中的数据是最新的。由于数据同步需要一定的时间,查询可能会在同步完成之前执行,导致查询不到数据。请确认数据已经成功同步到 Hudi 和 Hive 中,并等待一段时间后再次尝试查询。

    数据格式和类型不匹配:Hudi 和 Hive 对数据的格式和类型有要求。确保在将数据从 PG 同步到 Hudi 时,数据的格式和类型与 Hudi 的要求匹配。同样,在将数据从 Hudi 同步到 Hive 时,也需要确保数据的格式和类型与 Hive 的要求匹配。如果格式和类型不匹配,可能会导致查询不到数据或报错。

    Hudi 和 Hive 配置问题:检查 Hudi 和 Hive 的配置,确保配置正确并与您的数据源和目标环境相匹配。确保 Hudi 和 Hive 的表结构、分区等设置正确,并且与数据源 PG 的结构对应。任何配置不一致都可能导致查询不到数据或报错。

    Hudi 和 Hive 元数据同步问题:Hudi 和 Hive 使用元数据来管理数据和表结构。确保 Hudi 和 Hive 的元数据信息是正确同步的,并且在 Hudi 和 Hive 中都能正确找到相应的表和数据。如果元数据同步有问题,可能会导致查询不到数据或报错。

    2023-08-11 21:30:14
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
Hive Bucketing in Apache Spark 立即下载
spark替代HIVE实现ETL作业 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载