开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks这样的分区表,离线导出,参数要怎么填 ,有人能教一下吗?

clean_batch='20230731120000' DataWorks这样的分区表,离线导出,参数要怎么填 ,有人能教一下吗?image.png
两小时一次的分区表

展开
收起
真的很搞笑 2023-08-07 18:54:16 102 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    根据错误信息,这张表是一个分区表,需要在ODPSReader配置中指定分区字段以及取值范围。

    这里给出参数配置示例:

    分区字段:指定表的分区字段名,比如"clean batch"

    分区取值:指定分区值取值格式如下:

    "clean batch >= 20230731060000 AND clean batch < 20230731120000"

    或者

    "clean batch IN ('20230731060000','20230731080000')"

    注意:

    分区值格式需要符合ODPS SQL语法,使用>= < IN 等方式指定分区值范围
    分区取值可以指定单个值,也可以用逗号指定多个固定值
    多值需要用''括起来
    范围值需要用AND连接上下限
    正确配置后,读器就会根据分区过滤条件从表中读取指定分区范围内的数据。

    2023-08-10 16:36:23
    赞同 展开评论 打赏
  • 全栈JAVA领域创作者

    在DataWorks中,如果要导出分区表,需要在离线导出任务的参数中填写对应的分区信息。具体填写方法如下:

    在离线导出任务中,选择“分区表”作为数据源。
    在“分区表”参数中,填写分区信息。其中,clean_batch参数表示清理分区的时间,格式为yyyymmddhhmmss,例如“20230731120000”。
    如果您的分区表没有清理分区的功能,可以将clean_batch参数设置为空字符串。
    其他参数可以根据您的实际需求进行填写。
    注意事项:

    分区表的导出需要保证分区信息正确,否则可能会导致数据导出错误。
    如果您的分区表数据量较大,建议使用增量导出方式,以提高导出效率。

    2023-08-09 15:33:49
    赞同 展开评论 打赏
  • 导出设置:

    • 分区过滤条件:填写要导出的分区范围,例如在这个例子中可以填写batchNum >= '20110731100000' and batchNum <= '20230731120000'。
    • 数据导出模式:选择全量导出或增量导出,根据需求选择合适的模式。
    2023-08-09 07:55:27
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载