开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

在机器学习PAI当我用hive catalog读取hive数据时,为什么表中有这个字段,就会报错?

在机器学习PAI当我用hive catalog读取hive数据时,如果表中有timestamp类型字段,就会报错,什么原因?ClassCastException:org.apache.flink.table.data.TimestampData cannot be cast to java.time.LocalDateTime

展开
收起
三分钟热度的鱼 2023-06-05 15:38:32 128 1
3 条回答
写回答
取消 提交回答
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    在阿里云机器学习PAI中使用 Hive Catalog 读取 Hive 数据时,可能会遇到您提到的问题。这是因为 Flink 对于 Hive 中的 timestamp 类型默认使用 java.time.LocalDateTime 类型进行解析,而在底层实现中,Flink 使用了 BigDecimals 和 Longs 存储 timestamp 的值。

    为了解决上述问题,您可以尝试执行以下步骤:

    1. 将 Hive 表的 timestamp 数据类型转换为 String 数据类型。

    可以使用 Hive 的 date_format 函数将 timestamp 类型转换为 String 类型。

    例如,如果您要将某个名为 timestamp_field 的 timestamp 类型字段转换为 yyyy-MM-dd HH:mm:ss 格式的字符串,则可以使用以下 SQL 语句:

    SELECT date_format(timestamp_field, 'yyyy-MM-dd HH:mm:ss') AS timestamp_str FROM table_name;
    
    1. 重新定义 Flink 表的 schema

    在 Hive Catalog 中,您可以对 Flink 表的 schema 进行重新定义,以使 Flink 可以正确地解析 timestamp 字段的值。您可以通过在 Flink 表的 schema 中将 timestamp 字段的数据类型更改为 String 类型来实现此目的。

    例如:

    HiveCatalog hiveCatalog = new HiveCatalog("my_catalog", "default", "/path/to/hive-conf-dir");
    TableEnvironment tableEnv = TableEnvironment.create(hiveCatalog);
    
    // 定义表的 schema
    Schema schema = new Schema()
        .field("id", DataTypes.INT())
        .field("name", DataTypes.STRING())
        .field("timestamp_str", DataTypes.STRING()); // 将 timestamp 字段的数据类型更改为 String 类型
    
    // 创建 Flink 表
    tableEnv.createTable("my_table", hiveCatalog.getDatabaseName() + ".table_name", schema);
    

    在上述代码中,我们将 Hive 表 table_name 转换为 Flink 表 my_table,并将 timestamp 字段的数据类型更改为 String 类型。

    通过对 Hive 表进行数据类型转换,并在 Flink 表的 schema 中重新定义数据类型,您可以在使用 Hive Catalog 读取 Hive 数据时成功解析 timestamp 字段的值。

    2023-06-05 22:08:59
    赞同 展开评论 打赏
  • 北京阿里云ACE会长

    这个问题可能是由于Flink的时间类型系统与Hive的时间类型系统之间的差异导致的。具体来说,Flink使用Java 8的时间API来表示时间和日期,而Hive使用自己的时间类型系统。当您使用Hive catalog读取包含时间戳类型字段的表格时,Flink会尝试将Hive时间戳类型转换为Java 8的时间类型,但是在这个过程中可能会发生类型转换错误。

    为了解决这个问题,您可以尝试在Flink中使用Hive的时间类型系统,而不是Java 8的时间API。具体来说,您可以使用Flink的HiveCatalog和HiveTableSource来读取Hive表格。这些类会使用Hive的时间类型系统来处理时间戳类型字段,从而避免类型转换错误。

    另外,您可以尝试使用Flink的时间类型来替换Hive的时间类型。具体来说,您可以将时间戳类型字段转换为Flink的时间类型(例如Timestamp),以便在Flink中进行处理。您可以使用Flink的CAST函数将时间戳类型字段转换为时间类型,例如:

    SELECT CAST(my_timestamp_field AS TIMESTAMP) FROM my_table
    
    2023-06-05 21:31:15
    赞同 展开评论 打赏
  • https://github.com/alibaba/Alink/blob/c57424780bfe92a313bd09af2f42987e9bfb42e6/core/src/main/java/com/alibaba/alink/common/io/catalog/HiveCatalog.java#L638

    看一下这里,着急的话,先自己改一下,加上类型判断,不急的话,等后边修复。此回答整理自钉群“Alink开源--用户群”

    2023-06-05 15:58:50
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    Hive Bucketing in Apache Spark 立即下载
    spark替代HIVE实现ETL作业 立即下载
    2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载