开发者社区 问答 正文

什么是数据集成

大数据套件中数据集成(Data Integration)是阿里集团对外提供的可跨异构数据存储系统的、可靠、安全、低成本、可弹性扩展的数据同步平台,为 20+ 种数据源提供不同网络环境下的离线(全量/增量)数据进出通道。详细的数据源类型列表请参见 支持数据源类型。用户可以通过 数据集成(Data Integration)向云产品 Table Store 进行数据的导入和数据导出。

新添加TableStore作为数据源


只有项目管理员角色才能够新建数据源,其他角色的成员仅能查看数据源。


  1. 以项目管理员身份进入数加管理控制台,单击[backcolor=transparent]项目列表下对应项目操作栏中的[backcolor=transparent]进入工作区。

  2. 进入顶部菜单栏中的[backcolor=transparent]数据集成页面,单击左侧导航栏中的[backcolor=transparent]数据源。

  3. 单击右上角的[backcolor=transparent]新增数据源。

  4. 在新增数据源弹出框中填写相关配置项。

    参数说明如下:
    配置项说明
    数据源名称由英文字母、数字、下划线组成,且必须以字符或下划线开头,长度不超过 60 个字符。
    数据源描述对数据源进行简单描述,不得超过 80 个字符。
    数据源类型选择 [backcolor=transparent]ots。
    OTS EndpointTable Store 服务的 Endpoint,一般的格式为http://instancename.cn-hangzhou.ots.aliyuncs.com。详情请参见访问控制
    OTS 实例 IDTable Store 服务对应的实例名称。
    Access Id/Access Key访问密钥 AccessKey(AK),相当于登录密码。

  5. 完成上述信息项的配置后,单击测试连通性。

  6. 测试连通性通过后,单击[backcolor=transparent]确定。


脚本模式配置同步任务


  1. 以项目管理员身份进入数加管理控制台,单击[backcolor=transparent]大数据开发套件下对应项目操作栏中的[backcolor=transparent]进入工作区。

  2. 进入顶部菜单栏中的[backcolor=transparent]数据集成页面,选择[backcolor=transparent]脚本模式。


OTSReader脚本配置:{
  "configuration": {
    "setting": {
      "speed": {
        "concurrent": "1",//并发的数目
        "mbps": "1"//一个并发的速率上线,这里配置1的意思是1MB/S
      },
      "errorLimit": {
        "record": "0"//错误记录数,超过这个错误数会导致任务失败
      }
    },
    "reader": {
      "parameter": {
        "maxRetryTime": 3,//重试次数,默认是3次
        "range": {
            // 表的分区情况,如果不配置则自动按并发度划分,可以通过TableStore的DescribeTable接口获取,配置后性能更佳。
          "split": [],
          // 导出数据的起始主键范围
          // 支持INF_MIN, INF_MAX, STRING, INT
          "begin": [
            {
              "type": "INF_MIN",//指定第一个主键列的起始值
               "type": "INF_MIN"//指定第二个主键列的起始值
            }
          ],
        //导出数据的结束主键范围
        // 支持INF_MIN, INF_MAX, STRING, INT
          "end": [
            {
              "type": "INF_MAX",//指定第一个主键列的结束值
              "type": "INF_MAX"//指定第二个主键列的结束值
            }
          ]
        },
        //重试的间隔时间,以毫秒为单位,一般都不需要配置,用默认的值
        "retrySleepInMillionSecond": 100,
        // 需要导出的列名,支持重复类和常量列,区分大小写
        // 常量列:类型支持STRING,INT,DOUBLE,BOOL和BINARY
        // 备注:BINARY需要通过Base64转换为对应的字符串传入插件
        "column": [
          {
            "name": "id"//普通列
          },
          {
            "name": "name"//普通列
          },
          {
            "name": "year"//普通列
          }
        ],
        "table": "table_name",// 导出数据表的表名
        "datasource": "ots_datasource"//数据源名,建议数据源都先添加数据源后再配置同步任务,此配置项填写的内容必须与添加的数据源名称保持一致
      },
      "plugin": "ots"
    },
    "writer": {}
}




[backcolor=transparent]说明:详细配置请参见 OTS Reader配置


OTSWriter脚本配置:{
    "type": "job",
    "version": "1.0",
    "configuration": {
    "reader": {},
    "writer": {
      "parameter": {
        "writeMode": "PutRow",//写入模式,目前支持三种类型:单行操作、批量操作、范围读取
        "primaryKey": [
        //OTS 的主键信息
          {
            "name": "id",//主键列名
            "type": "STRING"//主键类型
          }
        ],
        "column": [
          {
            "name": "name",//列名
            "type": "string"//类型
          },
          {
            "name": "year",//列名
            "type": "int"//类型
          }
        ],
        "table": "table_name",//目标表名
        "datasource": "ots_datasource"//数据源名,建议数据源都先添加数据源后再配置同步任务,此配置项填写的内容必须与添加的数据源名称保持一致
      },
      "plugin": "ots"
    }
  }
}



展开
收起
云栖大讲堂 2017-10-25 11:19:25 2148 分享 版权
0 条回答
写回答
取消 提交回答