ODPS到ADS数据迁移指南

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。ODPS到数据迁移采用的方式同步数据。 1.     创建源和目标库表结构 初次在同步数据前需要在源库和目标库创建好相应的表结构。

数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。ODPS到ADS数据迁移采用CDP的方式同步数据。

1.     创建源和目标库表结构

初次在同步数据前需要在源库和目标库创建好相应的表结构。


2.     配置数据源

2.1源数据源配置-ODPS


1.登录Base管控台,单击顶部菜单栏中的项目管理,并选择相应的项目。

ff4ce004e8a02d4a6779f6fae39d8ac1005636a6

 

2.进入数据源配置,单击新增数据源

3f37967934666488b80d036b69194920e808e295





3. 在新建数据源弹出框中,选择数据源类型为ODPS;

2df70c5ad09183cdfa3edbd740fd24e8c709634a


 

配置项说明(上图中带*的都必须输入相应的信息):

l  数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过60个字符。

l  数据源描述:对数据源进行简单描述,不得超过80个字符。

l  数据源类型:当前选择的数据源类型ODPS。

l  ODPS Endpoint:默认只读。从系统配置中自动读取

l  ODPS项目名称与计算引擎配置中的ODPS项目名称相同。

l  AccessID/AceessKey访问密钥 AccessKeyAK 相当于登录密码。

4. 单击测试连通性。

5. 测试连通性通过后,单击确定。

2.2目标数据源配置-ADS

1.登录Base管控台,单击顶部菜单栏中的项目管理,并选择相应的项目。

2bd601fd6a61a9e80d22eebed274ff12032204d6


2. 进入数据源配置,单击新增数据源

 

19f6ef2590e1576049b414a709c5168bb3592eb3
3. 在新建数据源弹出框中,选择数据源类型为 ADS,配置ADS数据源的各个信息项。

fd6c81e056857f16865ff294e7f4f86678d41721

 

配置项说明(上图中带*的都必须输入相应的信息):

l  数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过60个字符。

l  数据源描述:对数据源进行简单描述,不得超过80个字符。

l  数据源类型:当前选择的数据源类型ADS。

l  连接UrlADS连接信息,格式为:serverIP:Port

l  Schema相应的 ADS Schema 信息。

l  AccessID/AceessKey访问密钥 AccessKeyAK 相当于登录密码。

4. 单击测试连通性。

5. 测试连通性通过后,单击确定。

3.     创建同步任务

1. 新建同步节点,如下图所示:

c42675153198c885aa6b7873178fb60e1756b36a


新建任务配置项说明(*项都需要输入或选择

名称: 起一个好识别的名称,符合命名规则即可;

任务类型为工作流任务可一次性调度或周期调度;节点任务只能是周期调度;

类型:选择数据同步;

选择目录:任务开发中选择您所使用的文件夹中要同步的任务。

 

2.选择数据来源和目标

5434c7b4e5768a0123cd554bae889767d846a375

其中:数据来源指的是数据源,数据流向指的是目标数据源。

 

3.字段配置


当源表和目标表结构一致时,默认的源和目标表字段是一一对应的关系,不用做任何设置。如下图所示:

 2259b1a1618ec20711b6d28ff6e3a0a08e553c67

4. 数据抽取和加载控制

Ø  数据抽取

全量同步时过滤条件为空;增量同步时可按时间进行数据的抽取。

Ø  加载控制

 加载控制中的导入模式与ADS表更新方式要对应;建议导入规则用覆盖写入。

ADS表更新方式

导入模式

导入规则

批量更新

批量导入

覆盖写入或追加写入

实时更新

实时导入

覆盖写入或追加写入

 

 

 

  

说明:

  导入规则是覆盖写入:目标表中有与源表部分相同的数据,覆盖写入会对相同的数据覆盖写入;

  导入规则是追加写入:源表中新增的数据,同步时会同步过去;当是批量导入时目标表与源表有主键相同数据不会导入成功。

 5.流量与出错控制

 作业速率上限是指数据同步作业可能达到的最高速率,其最终实际速率受网络环境、数据库配置等影响。

 

4.     任务调度


新建任务创建好保存后,会产生一个周期调度,默认的时间是每天晚上00:00执行。客户也可根据实际的同步场景进行时间配置。下图所示是默认的配置

 

225edf9632c75870cadecdb7d512a25cd29892f9

依赖属性配置:

76c79dcde460ad20cbb6a30213f429f45fabe96f

 

 


  依赖属性中可以配置任务的上游依赖,表示即使当前任务的实例已经到定时时间,也必须等待上游任务的实例运行完毕才会触发运行。

如果没有配置上游任务,则当前任务默认由项目本身触发运行,故在调度系统中,该任务的上游默认为 project_start 任务。每一个项目中默认会创建一个 project_start 任务作为根任务

5.     运维及日志排错

5.1测试运行


1.单击工作流页面中的测试运行按钮,如下图所示:

2. 根据跳转页面的提示,单击确认运行

 3.单击前往运维中心查看任务运行状态和运行日志,如下图所示:

707aae93f43c348ef7757ff2b3e5dfddae0e1adc

说明:

测试运行是手动触发任务执行,任务调度的时间到了,就自动运行,无视实例的上游依赖关系。

若测试运行只需要运行一次,测试运行完成后需要在调度状态前打勾暂停掉此任务。

57b513550b615ae3ee18be431f257649260f6763








5.2周期自动运行

    周期自动运行,由系统根据所有任务的任务调度配置自动触发。前往运维中心查看任务运行状态和检查运行日志。

路径:运维中心-〉任务管理-〉任务运维视图下查找对应时间对应任务的运行状态和检查节点运行日志。

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
运维 DataWorks 关系型数据库
DataWorks产品使用合集之怎么进行全量数据迁移
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
JSON DataWorks 监控
DataWorks产品使用合集之如何实现数据迁移(从阿里云一个账号迁移到另一个账号)
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
79 1
|
7月前
|
数据采集 DataWorks 数据安全/隐私保护
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
72 2
|
7月前
|
数据采集 DataWorks 数据安全/隐私保护
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
149 0
|
数据采集 DataWorks 数据挖掘
DataWorks可以支持数据迁移的功能
DataWorks可以支持数据迁移的功能
188 1
|
分布式计算 关系型数据库 分布式数据库
DRDS到ODPS数据迁移指南
数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。DRDS到ODPS数据迁移采用CDP的方式同步数据。 开始DRDS到ODPS数据迁移 1.     创建源和目标库表结构 初次在同步数据前需要在源库和目标库创建好相应的表结构。
6851 0
|
分布式计算 专有云 MaxCompute
ODPS到ODPS数据迁移指南
1. 工具选择与方案确定 目前,有两种方式可用于专有云环境下的从MaxCompute到MaxCompute整体数据迁移。 (1)使用DataX工具进行迁移,迁移所需的作业配置文件及运行脚本,可用DataX批量配置工具来生成; .
7103 0
|
JSON 分布式计算 MaxCompute
ODPS数据迁移指南
1. 背景调研 1.1 ODPS源与目的集群 调研项 内容 ODPS源集群版本 ODPS目的集群版本 ODPS源与目的是否在一个集群/可使用相同账号 ODPS源集群AccessKeyId ODPS源集群AccessKeySecret ODPS目的集群AccessKeyId ODPS目的集群AccessKeyIdSecret 1.2 预迁移数据统计 所属Project 表名 大小 是否要迁移增量 Project1 Table1 Desc查看表大小 2. 工具选择与方案确定 目前有四种方式可用于ODPS的数据迁移。
15188 0
|
1天前
|
数据采集 人工智能 DataWorks
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评
|
13天前
|
SQL DataWorks 搜索推荐
DataWorks产品评测与最佳实践体验报告
DataWorks是阿里巴巴云推出的一款高效数据处理平台,通过内置的数据集成工具和ETL功能,实现了多源数据的自动化处理与分析。本文介绍了DataWorks在用户画像分析中的应用实践,展示了其如何帮助企业高效管理数据资源,支持决策制定及营销优化。同时,文章还评测了DataWorks的产品体验,包括开通流程、功能满足度等方面,并与其它数据开发平台进行了比较,突出了DataWorks在易用性、性能和生态完整性上的优势。最后,对Data Studio新版本中的Notebook环境进行了初步探索,强调了其在提升开发效率方面的价值。
52 16

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    118
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    118
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    113
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    100
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    104
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    118
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    123
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    161
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    92
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    132
  • 下一篇
    DataWorks