开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks中datax 从hive(parquet格式) 到mysql 报错?

DataWorks中datax 从hive(parquet格式) 到mysql 报错?image.png

展开
收起
真的很搞笑 2024-01-23 14:52:26 314 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    这个报错信息显示,DataX在读取Hive中的Parquet文件时遇到了问题。具体来说,它期望在文件的尾部找到一个特定的魔数(magic number),但是没有找到。这可能是由于文件格式不正确或者配置错误导致的。

    为了解决这个问题,你可以尝试以下方法:

    1. 检查你的Hive中的Parquet文件是否正确。确保它们是有效的Parquet文件,并且与DataX的配置相匹配。

    2. 检查DataX的配置文件,确保它正确地指定了Hive中的Parquet文件路径和MySQL的目标表。

    3. 如果可能的话,尝试将Hive中的Parquet文件转换为其他格式(如CSV),然后使用DataX从新格式迁移到MySQL。这可能会简化迁移过程并避免潜在的格式问题。

    4. 如果问题仍然存在,可以查看DataX的官方文档和社区支持,看看是否有其他人遇到了类似的问题并找到了解决方案。

    2024-01-23 21:23:38
    赞同 展开评论 打赏
  • 这个错误信息是在读取一个名为“oss://note-bi/hive/warehouse/dw_cm/dm_gaode_data_SUCCESS”的文件时出现的。具体来说,它指出该文件不是Parquet格式的文件,尾部缺少预期的magic number(一种用于验证数据完整性的特殊字符串或数字序列)。因此,DFSUtil无法解析该文件的Parquet schema。

    在尝试读取这个文件之前,确保它是一个有效的Parquet文件,并且没有被损坏。如果文件是正确的,但仍然遇到此问题,可能需要检查你的代码或配置,以确保正确地处理和读取Parquet文件。

    2024-01-23 17:04:04
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载