在机器学习PAI当我用hive catalog读取hive数据时，为什么表中有这个字段，就会报错？

在机器学习PAI当我用hive catalog读取hive数据时，如果表中有timestamp类型字段，就会报错，什么原因？ClassCastException:org.apache.flink.table.data.TimestampData cannot be cast to java.time.LocalDateTime

展开

收起

三分钟热度的鱼 2023-06-05 15:38:32 238 版权

3 条回答

写回答

取消提交回答

wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com
在阿里云机器学习PAI中使用 Hive Catalog 读取 Hive 数据时，可能会遇到您提到的问题。这是因为 Flink 对于 Hive 中的 timestamp 类型默认使用 java.time.LocalDateTime 类型进行解析，而在底层实现中，Flink 使用了 BigDecimals 和 Longs 存储 timestamp 的值。

为了解决上述问题，您可以尝试执行以下步骤：
1. 将 Hive 表的 timestamp 数据类型转换为 String 数据类型。
可以使用 Hive 的 date_format 函数将 timestamp 类型转换为 String 类型。

例如，如果您要将某个名为 timestamp_field 的 timestamp 类型字段转换为 yyyy-MM-dd HH:mm:ss 格式的字符串，则可以使用以下 SQL 语句：
```
SELECT date_format(timestamp_field, 'yyyy-MM-dd HH:mm:ss') AS timestamp_str FROM table_name;
```
1. 重新定义 Flink 表的 schema
在 Hive Catalog 中，您可以对 Flink 表的 schema 进行重新定义，以使 Flink 可以正确地解析 timestamp 字段的值。您可以通过在 Flink 表的 schema 中将 timestamp 字段的数据类型更改为 String 类型来实现此目的。

例如：
```
HiveCatalog hiveCatalog = new HiveCatalog("my_catalog", "default", "/path/to/hive-conf-dir");
TableEnvironment tableEnv = TableEnvironment.create(hiveCatalog);

// 定义表的 schema
Schema schema = new Schema()
    .field("id", DataTypes.INT())
    .field("name", DataTypes.STRING())
    .field("timestamp_str", DataTypes.STRING()); // 将 timestamp 字段的数据类型更改为 String 类型

// 创建 Flink 表
tableEnv.createTable("my_table", hiveCatalog.getDatabaseName() + ".table_name", schema);
```
在上述代码中，我们将 Hive 表 table_name 转换为 Flink 表 my_table，并将 timestamp 字段的数据类型更改为 String 类型。

通过对 Hive 表进行数据类型转换，并在 Flink 表的 schema 中重新定义数据类型，您可以在使用 Hive Catalog 读取 Hive 数据时成功解析 timestamp 字段的值。
2023-06-05 22:08:59

赞同展开评论
算精通

北京阿里云ACE会长
这个问题可能是由于Flink的时间类型系统与Hive的时间类型系统之间的差异导致的。具体来说，Flink使用Java 8的时间API来表示时间和日期，而Hive使用自己的时间类型系统。当您使用Hive catalog读取包含时间戳类型字段的表格时，Flink会尝试将Hive时间戳类型转换为Java 8的时间类型，但是在这个过程中可能会发生类型转换错误。

为了解决这个问题，您可以尝试在Flink中使用Hive的时间类型系统，而不是Java 8的时间API。具体来说，您可以使用Flink的HiveCatalog和HiveTableSource来读取Hive表格。这些类会使用Hive的时间类型系统来处理时间戳类型字段，从而避免类型转换错误。

另外，您可以尝试使用Flink的时间类型来替换Hive的时间类型。具体来说，您可以将时间戳类型字段转换为Flink的时间类型（例如Timestamp），以便在Flink中进行处理。您可以使用Flink的CAST函数将时间戳类型字段转换为时间类型，例如：
```
SELECT CAST(my_timestamp_field AS TIMESTAMP) FROM my_table
```
2023-06-05 21:31:15

赞同展开评论
圆不溜秋的小猫猫

https://github.com/alibaba/Alink/blob/c57424780bfe92a313bd09af2f42987e9bfb42e6/core/src/main/java/com/alibaba/alink/common/io/catalog/HiveCatalog.java#L638

看一下这里，着急的话，先自己改一下，加上类型判断，不急的话，等后边修复。此回答整理自钉群“Alink开源--用户群”

2023-06-05 15:58:50

赞同展开评论

在机器学习PAI当我用hive catalog读取hive数据时，为什么表中有这个字段，就会报错？

人工智能平台PAI

相关文章

热门讨论

热门文章