DataWorks的hive writer parquent存储bigint类型

已解决

DataWorks的hive writer parquent存储bigint类型

2021-12-23 12:30:35.356 630912445-0-0-writer ERROR StdoutPluginCollector - 脏数据: {"exception":"error starting field servertimestamp at 10","message":"error starting field servertimestamp at 10","record":{"byteSize":8,"index":0,"rawData":1640058849855,"type":"LONG"},。。。com.alibaba.datax.common.exception.DataXException: Code:HdfsWriter-04, Description:您配置的文件在写入时出现IO异常.. - java.lang.ClassCastException: parquet.io.PrimitiveColumnIO cannot be cast to parquet.io.GroupColumnIO

展开
收起
阿里云服务支持 2022-12-09 15:11:46 547 分享 版权
1 条回答
写回答
取消 提交回答
  • 推荐回答
    官方回答

    hive writer parquent存储bigint类型需要parameter里增加参数 "dataxParquetMode": "fields"

    加该参数原因:这个是写parquet的实现有不同,不加这个参数是个老模式,那个模式处理null的情况会有些限制,源端bigint字段有null就会报错。

    2022-12-09 15:18:29
    赞同 展开评论

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

收录在圈子:
作为全球云计算的领先者,阿里云为全球230万企业提供着云计算服务,服务范围覆盖200多个国家和地区。我们致力于为企业、政府等组织机构提供安全可靠的云计算服务,给用户带来极速愉悦的服务体验。
还有其他疑问?
咨询AI助理