开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks同步数据到OSS时切分文件的单位?

DataWorks同步数据到OSS时切分文件的单位?

展开
收起
真的很搞笑 2023-12-03 17:24:17 44 0
3 条回答
写回答
取消 提交回答
  • OSS数据源为您提供读取和写入OSS的双向通道,本文为您介绍DataWorks的OSS数据同步的能力支持情况。https://help.aliyun.com/zh/dataworks/user-guide/oss-data-source

    说明
    默认单位为MB。

    配置示例:"maxFileSize":300, 表示设置单个文件大小为300M。

    2023-12-05 13:47:20
    赞同 1 展开评论 打赏
  • 在DataWorks中,当数据同步到OSS时,切分文件的单位是行。也就是说,每一行数据都会作为一个独立的文件存储在OSS中。这样可以有效地提高数据的处理速度和效率。

    2023-12-04 17:42:20
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks同步数据到OSS时,文件的切分单位可以按照您的需求进行设置。您可以选择以文件为单位进行切分,也可以按照记录数进行切分。此外,如果您希望进一步提升数据同步任务的效率,建议将源数据表中的主键或有索引的列作为切分键,因为主键通常比较均匀,切分出来的文件也不容易出现数据热点。

    2023-12-03 17:52:52
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    OSS运维进阶实战手册 立即下载
    《OSS运维基础实战手册》 立即下载
    OSS运维基础实战手册 立即下载