阿里云Dataworks数据集成工具实现：OTS -> Maxcompute数据同步-阿里云开发者社区

阿里云Dataworks数据集成工具实现：OTS -> Maxcompute数据同步

2020-09-07 1595

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

大数据开发治理平台DataWorks，资源组抵扣包 750CU*H

表格存储 Tablestore，50G 2个月

简介： 数据集成主要用于离线(批量)数据同步。离线(批量)的数据通道通过定义数据来源和去向的数据源和数据集，提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer)，并基于此框架设计一套简化版的中间数据传输格式，从而实现任意结构化、半结构化数据源之间数据传输。结合用户在使用OTS数据源同步的时候容易出现问题，这里演示：OTS数据源同步数据到Maxcompute的具体实现步骤。

Step By Step

1、配置数据源 + 测试连通性

1.1 Table Store（OTS）参数获取
1.2、AccessKey、AccessSecret获取
阿里云常见参数获取位置
1.3 Dataworks数据集成配置OTS数据源
1.4 Maxcompute数据源配置

2、源数据准备及目标表创建

2.1 OTS 源数据表

图片.png

2.2 odps数据表创建

CREATE TABLE otstoodps (id INT,name STRING);

3、创建数据集成任务(OTS数据源当前仅支持脚本模式)

3.1 脚本Sample

{
    "type": "job",
    "steps": [
        {
            "stepType": "ots",
            "parameter": {
                "datasource": "otsdemo",
                "column": [
                    {
                        "name": "id"
                    },
                    {
                        "name": "name"
                    }
                ],
                "range": {
                    "end": [
                        {
                            "type": "INF_MAX"
                        }
                    ],
                    "begin": [
                        {
                            "type": "INF_MIN"
                        }
                    ]
                },
                "table": "otsreader2"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "odps",
            "parameter": {
                "partition": "",
                "truncate": true,
                "datasource": "odps_first",
                "column": [
                    "id",
                    "name"
                ],
                "emptyAsNull": false,
                "table": "otstoodps"
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "version": "2.0",
    "order": {
        "hops": [
            {
                "from": "Reader",
                "to": "Writer"
            }
        ]
    },
    "setting": {
        "errorLimit": {
            "record": ""
        },
        "speed": {
            "concurrent": 2,
            "throttle": false
        }
    }
}
        
          
        
        
        
          
          AI 代码解读

3.2 注意事项

a、ots Reader 表示将主键名也放在column中;
b、reader column的顺序和writer column的顺序要一致。

4、测试运行 + 调度配置

4.1 测试运行
4.2 目标表结果查看
4.3 调度配置(测试运行成功后，可以配置周期调度，将任务提交到运维中心周期运行)

参考链接

Table Store（OTS） Reader
MaxCompute Writer

阿里云Dataworks数据集成工具实现：OTS -> Maxcompute数据同步

Step By Step

1、配置数据源 + 测试连通性

2、源数据准备及目标表创建

3、创建数据集成任务(OTS数据源当前仅支持脚本模式)

4、测试运行 + 调度配置

参考链接

云服务技术课堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

阿里云Dataworks数据集成工具实现：OTS -> Maxcompute数据同步

Step By Step

1、配置数据源 + 测试连通性

2、源数据准备及目标表创建

3、创建数据集成任务(OTS数据源当前仅支持脚本模式)

4、测试运行 + 调度配置

参考链接

云服务技术课堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景