开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC将hive作为source表,为啥总是一提交就结束呢,有人碰到过么?

Flink CDC将hive作为source表,为啥总是一提交就结束呢,有人碰到过么?

展开
收起
真的很搞笑 2023-11-16 07:54:01 67 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    是的,有些时候 Flink CDC 在将 Hive 表作为源表进行数据采集时可能会出现问题。这可能是因为 Hive 表数据格式、元数据和 Flink 的数据结构不匹配所导致的。具体原因可能有以下几种:

    1. Hive 表的数据格式不匹配:请检查 Hive 表的数据格式是否符合 Flink 的期望。
    2. Hive 表的元数据错误:请检查 Hive 表的元数据是否正确。
    3. Hive 表的数据类型不匹配:请检查 Hive 表的数据类型是否与 Flink 的数据类型匹配。

    如果无法解决问题,您可以尝试以下方法:

    // 将 Hive 表转换成 Parquet 格式。
    CREATE TABLE my_table_in_parquet (
        ...
    ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.parquet.serde.ParquetHiveSerDe'
    STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
    LOCATION '/path/to/parquet/data';
    
    2023-11-16 13:37:06
    赞同 展开评论 打赏
  • Flink CDC将Hive作为source表,一提交就结束的问题可能有多种原因。首先,需要确认的是Flink作业的配置是否正确,例如是否正确指定了Flink CDC连接器以及相关的Hive配置。其次,如果Flink作业在提交后立即结束,可能是因为没有正确设置Flink作业的运行模式。在这种情况下,可以尝试使用Flink SQL的INSERT INTO语句将数据插入到Hive表中。此外,还需要注意小文件问题,对于这种情况可以使用Flink SQL批处理定期执行表合并来解决。最后,也可以尝试检查是否有其他错误或异常导致作业无法正常执行。如果以上方法都无法解决问题,建议详细查看Flink作业日志以获取更多信息。

    2023-11-16 10:23:45
    赞同 1 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 热门讨论

    热门文章

    相关电子书

    更多
    Hive Bucketing in Apache Spark 立即下载
    spark替代HIVE实现ETL作业 立即下载
    2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载