开发者社区 问答 正文

datax的hdfsreader读取大的orc表行数不够

数据源是一张orc格式的hive表,是用datax从mysql导入hive的,每天分区大约有3800万行;现在通过hdfsreader和mysqlwriter从hive导回mysql,只能读出8065000行,少了3000万行,是有什么限制吗?

展开
收起
winner.lzw 2018-05-07 17:50:18 5319 分享 版权
3 条回答
写回答
取消 提交回答
  • 是orc格式的限制,把orc文件拆分多个就行

    2021-02-20 19:43:00
    赞同 1 展开评论
  • 看下datax运行日志,是否有报错信息,是否同步中断了,是否有脏数据导致被跳过了等等,分析下缺的3000万行有说明特点

    2019-07-17 22:08:01
    赞同 展开评论
  • 看看运行日志,是否有脏数据报错

    2019-07-17 22:08:01
    赞同 展开评论