开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

如何使用maxcompute的数据集成功能?

如何使用maxcompute的数据集成功能?

展开
收起
爱喝咖啡嘿 2022-12-15 11:52:26 335 0
2 条回答
写回答
取消 提交回答
  • ODS的数据需要由各数据源系统同步到MaxCompute,才能用于进一步的数据开发。本教程建议您使用DataWorks数据集成功能完成数据同步,详情请参见概述。在使用数据集成的过程中,建议您遵循以下规范:一个系统的源表只允许同步到MaxCompute一次,保持表结构的一致性。数据集成仅用于离线全量数据同步,实时增量数据同步需要您使用数据传输服务DTS实现,详情请参见数据传输服务DTS。数据集成全量同步的数据直接进入全量表的当日分区。ODS层的表建议以统计日期及时间分区表的方式存储,便于管理数据的存储成本和策略控制。数据集成可以自适应处理源系统字段的变更:如果源系统字段的目标表在MaxCompute上不存在,可以由数据集成自动添加不存在的表字段。如果目标表的字段在源系统不存在,数据集成填充NULL。 https://help.aliyun.com/document_detail/154247.html——此答案整理自钉群“DataWorks交流群(答疑@机器人)”

    2022-12-19 15:26:50
    赞同 展开评论 打赏
    • 数据同步:支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步,不支持同步OSS中存放完全非结构化的数据(例如一段MP3)至MaxCompute。
    • 网络连通:支持单地域内及部分跨地域的数据存储相互同步、交换的数据同步需求。 部分地域之间可以通过经典网络传输,但不能保证其连通性。如果测试经典网络不通,建议您使用公网方式进行连接。
    • 数据传输:数据集成仅完成数据同步(传输),本身不提供数据流的消费方式。
    • 数据一致性:数据集成同步仅支持at least once,不支持exact once,即不能保证数据重复,只能依赖主键+目的端能力来保证。 更多使用操作参考链接image.png
    2022-12-16 01:26:08
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载