PolarDB-X 1.0-用户指南-数据导入导出-通过数据集成导入导出数据

本文涉及的产品
云原生数据库 PolarDB 分布式版,标准版 2核8GB
简介: 本文介绍如何通过数据集成在PolarDB-X中进行数据导入和导出。数据集成是阿里巴巴集团提供的数据同步平台。该平台具备可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展等特点,可为20多种数据源提供不同网络环境下的离线(全量或增量)数据进出通道。

本文介绍如何通过数据集成在PolarDB-X中进行数据导入和导出。

数据集成是阿里巴巴集团提供的数据同步平台。该平台具备可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展等特点,可为20多种数据源提供不同网络环境下的离线(全量或增量)数据进出通道。

使用数据集成,您可以在PolarDB-X完成以下数据同步任务:

  • 将PolarDB-X的数据同步到到其他的数据源里,并将数据进行相应的处理;
  • 将处理好的其他数据源数据同步到PolarDB-X。

本文包含以下内容:

流程概述

数据同步流程主要包含以下几个步骤:

  • 第一步:数据源端新建表
  • 第二步:添加数据源
  • 第三步:向导模式或脚本模式配置同步任务
  • 第四步:运行同步任务,检查目标端的数据质量

准备工作

使用数据集成在PolarDB-X进行数据导入导出之前,请先注册阿里云账号并参考创建RAM子账号文档,完成以下准备工作:

  1. 开通阿里云官网实名认证账号,创建好账号的访问密钥,即 AccessKeys。
  2. 开通 MaxCompute,这样会自动产生一个默认的 ODPS 的数据源,并使用主账号登录大数据开发套件。
  3. 创建项目。您可以在项目中协作完成工作流,共同维护数据和任务等,因此使用大数据开发套件之前需要先创建一个项目。
  4. 如果想通过子账号创建数据集成任务,可以赋予其相应的权限。

新添加数据源

下面以添加PolarDB-X的数据源为例。

注意:只有项目管理员角色才能够新建数据源,其他角色的成员仅能查看数据源。

  1. 以项目管理员身份登录数加管理控制台
  2. 项目列表中对应项目的操作栏单击进入工作区
  3. 进入顶部菜单栏中的数据集成页面,单击左侧导航栏中的数据源
  4. 点击右上角的新增数据源,如下图所示:

  5. 在新增数据源弹出框中填写相关配置项,如下图所示:针对PolarDB-X数据源配置项的具体说明如下:
  • 数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过 60 个字符 。
  • 数据源描述:对数据源进行简单描述,不得超过 80 个字符 。
  • 数据源类型:当前选择的数据源类型 DRDS。
  • 网络类型:当前选择的网络类型。
  • JDBCUrl:JDBC 连接信息,格式为jdbc://mysql://serverIP:Port/database
  • 用户名/密码:对应的用户名和密码。
  1. 完成上述信息项的配置后,单击测试连通性
  2. 测试连通性通过后,单击确定

通过数据集成导入数据

下文以通过数据集成的向导模式将 MaxCompute(原 ODPS)数据同步到PolarDB-X为例。

  1. 在数据集成页面,新建同步任务。
  • 向导模式:向导模式是可视化界面配置同步任务, 一共涉及五步选择来源,选择目标,字段映射,通道控制,预览保存五个步骤。在每个不同的数据源之间,这几步的界面可能有不同的内容。向导模式可以转换成脚本模式。
  • 脚本模式:进入脚本界面你可以选择相应的模板,此模板包含了同步任务的主要参数,将相关的信息填写完整,但是脚本模式不能转化成向导模式。
  1. 选择数据来源。选择 MaxCompute 数据源及源头表 mytest,数据浏览默认是收起的,选择后单击下一步

  2. 选择目标。选择PolarDB-X数据源及目标表contact_infos,选择后单击下一步
  • preSql:执行数据同步任务之前率先执行的 SQL 语句。目前向导模式只允许执行一条 SQL 语句,脚本模式可以支持多条 SQL 语句,例如清除旧数据。
  • postSql:执行数据同步任务之后执行的 SQL 语句。目前向导模式只允许执行一条 SQL 语句,脚本模式可以支持多条 SQL 语句,例如加上某一个时间戳。
  1. 选择字段的映射关系。左侧源头表字段和右侧目标表字段为一一对应的关系,如下图所示。

  2. 在通道控制页面单击下一步,配置作业速率上限和脏数据检查规则。
  • 作业速率上限:是指数据同步作业可能达到的最高速率,其最终实际速率受网络环境、数据库配置等的影响。
  • 作业并发数:作业速率上限=作业并发数 * 单并发的传输速率。
  1. 当作业速率上限已选定的情况下,可以根据以下原则选择并发数:
  • 如果你的数据源是线上的业务库,建议您不要将并发数设置过大,以防对线上库造成影响;
  • 如果您对数据同步速率特别在意,建议您选择最大作业速率上限和较大的作业并发数。
  1. 完成以上配置后,上下滚动鼠标可查看任务配置,确定无误后单击保存

  2. 单击运行任务,直接运行同步任务结果。您可以将同步任务提交到调度系统中,调度系统会按照配置属性从第二天开始自动定时执行。

脚本模式配置同步任务

  1. {
  2.  "type":"job",
  3.  "version":"1.0",
  4.  "configuration":{
  5.    "reader":{
  6.      "plugin":"odps",
  7.      "parameter":{
  8.        "datasource":"lzz_odps",//数据源的名称,建议都添加数据源后进行同步
  9.        "table":"mytest",//数据来源的表名
  10.        "partition":"",//分区信息
  11.        "column":[
  12.          "id"
  13.        ]
  14.      }
  15.    },
  16.    "writer":{
  17.      "plugin":"drds",
  18.      "parameter":{
  19.        "datasource":"l_Drds_w",//数据源的名称,建议都添加数据源后进行同步
  20.        "table":"contact_infos",//目的表名
  21.        "preSql":[],//导入前准备语句
  22.        "postSql":[],//导入后准备语句
  23.        "column":[
  24.          "id"
  25.        ]
  26.      }
  27.    },
  28.    "setting":{
  29.      "speed":{
  30.        "mbps":"1",//一个并发的速率上线是1MB/S
  31.        "concurrent":"1"//并发的数目
  32.      }
  33.    }
  34.  }
  35. }

通过数据集成导出数据

下文以通过向导模式将PolarDB-X数据同步到 MaxCompute 为例。

  1. 在数据集成页面,新建同步任务。

  2. 选择数据来源。选择PolarDB-X数据源及源头表 bit_type_test。数据浏览默认是收起的,选择后单击下一步,如下图所示:
  • 过滤条件:筛选条件,DrdsReader 根据指定的 column、table、where 条件拼接 SQL,并根据这个 SQL 进行数据抽取 。例如在做测试时,可以将 where 条件指定实际业务场景,往往会选择当天的数据进行同步,可以将 where 条件指定为STRTODATE(‘${bdp.system.bizdate}’, ‘%Y%m%d’) <= taday AND taday < DATEADD(STRTODATE(‘${bdp.system.bizdate}’, ‘%Y%m%d’), interval 1 day)
  • 切分键:您可以将源数据表中某一列作为切分键,切分之后可进行并发数据同步。目前仅支持整型字段;建议使用主键或有索引的列作为切分键。
  1. 选择 MaxCompute 数据源及目标表 mytest,选择后单击下一步

  2. 单击下一步,选择字段的映射关系。左侧源头表字段和右侧目标表字段为一一对应的关系:您也可以单击“添加一行”增加映射关系:
  • 可以输入常量,输入的值需要使用英文单引号包括,如’abc’、’123’等;
  • 可以配合调度参数使用,如’${bdp.system.bizdate}’等;
  • 可以输入关系数据库支持的函数,如now()count(1)等;
  • 如果您输入的值无法解析,则类型显示为’-‘。
  1. 在通道控制页面单击下一步,配置作业速率上限和脏数据检查规则。
  • 作业速率上限:是指数据同步作业可能达到的最高速率,其最终实际速率受网络环境、数据库配置等的影响。
  • 作业并发数:作业速率上限=作业并发数 * 单并发的传输速率。
  1. 当作业速率上限已选定的情况下,可以按以下原则选择并发数:
  • 如果你的数据源是线上的业务库,建议您不要将并发数设置过大,以防对线上库造成影响;
  • 如果您对数据同步速率特别在意,建议您选择最大作业速率上限和较大的作业并发数。
  1. 完成以上配置后,上下滚动鼠标可查看任务配置。确认无误后单击保存

  2. 单击运行任务直接运行同步任务结果。您也可以将同步任务提交到调度系统中,调度系统会按照配置属性从第二天开始自动定时执行。

脚本模式配置同步任务

  1. {
  2.  "type":"job",
  3.  "version":"1.0",
  4.  "configuration":{
  5.    "reader":{
  6.      "plugin":"drds",
  7.      "parameter":{
  8.        "datasource":"l_Drds_w",//数据源的名称,建议都添加数据源后进行同步
  9.        "table":"bit_type_test",/数据来源的表名
  10.        "where":"",
  11.        "splitPk":"col2",//切分键
  12.        "column":[
  13.          "idbit"
  14.        ]
  15.      }
  16.    },
  17.    "writer":{
  18.      "plugin":"odps",
  19.      "parameter":{
  20.        "datasource":"lzz_odps",//数据源的名称,建议都添加数据源后进行同步
  21.        "table":"mytest",
  22.        "truncate":true,
  23.        "partition":"",//分区信息
  24.        "column":[
  25.          "id"
  26.        ]
  27.      }
  28.    },
  29.    "setting":{
  30.      "speed":{
  31.        "mbps":"1",//作业速率上限
  32.        "concurrent":"1"//并发数
  33.      },
  34.      "errorLimit":{
  35.        "record":"234"//错误记录数
  36.      }
  37.    }
  38.  }
  39. }
相关文章
|
24天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。
|
3月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云数据库重磅升级!元数据服务OneMeta + OneOps统一管理多模态数据
|
3月前
|
并行计算 关系型数据库 分布式数据库
朗坤智慧科技「LiEMS企业管理信息系统」通过PolarDB产品生态集成认证!
近日,朗坤智慧科技股份有限公司「LiEMS企业管理信息系统软件」通过PolarDB产品生态集成认证!
|
4月前
|
存储 SQL Cloud Native
揭秘!PolarDB-X存储引擎如何玩转“时间魔术”?Lizard多级闪回技术让你秒回数据“黄金时代”!
【8月更文挑战第25天】PolarDB-X是一款由阿里巴巴自主研发的云原生分布式数据库,以其高性能、高可用性和出色的可扩展性著称。其核心竞争力之一是Lizard存储引擎的多级闪回技术,能够提供高效的数据恢复与问题诊断能力。本文通过一个电商公司的案例展示了一级与二级闪回技术如何帮助快速恢复误删的大量订单数据,确保业务连续性不受影响。一级闪回通过维护最近时间段内历史数据版本链,支持任意时间点查询;而二级闪回则通过扩展数据保留时间并采用成本更低的存储方式,进一步增强了数据保护能力。多级闪回技术的应用显著提高了数据库的可靠性和灵活性,为企业数据安全保驾护航。
47 1
|
4月前
|
数据库 Windows
超详细步骤解析:从零开始,手把手教你使用 Visual Studio 打造你的第一个 Windows Forms 应用程序,菜鸟也能轻松上手的编程入门指南来了!
【8月更文挑战第31天】创建你的第一个Windows Forms (WinForms) 应用程序是一个激动人心的过程,尤其适合编程新手。本指南将带你逐步完成一个简单WinForms 应用的开发。首先,在Visual Studio 中创建一个“Windows Forms App (.NET)”项目,命名为“我的第一个WinForms 应用”。接着,在空白窗体中添加一个按钮和一个标签控件,并设置按钮文本为“点击我”。然后,为按钮添加点击事件处理程序`button1_Click`,实现点击按钮后更新标签文本为“你好,你刚刚点击了按钮!”。
278 0
|
4月前
|
存储 人工智能 关系型数据库
PolarDB 与 AI/ML 集成的应用案例
【8月更文第27天】随着大数据和人工智能技术的发展,越来越多的企业开始探索将关系型数据库与 AI/ML 技术相结合的方式,以提高数据分析效率和业务智能化水平。阿里云的 PolarDB 是一款高性能的关系型数据库服务,支持多种数据库引擎,如 MySQL、PostgreSQL 和 Oracle。通过与阿里云的其他 AI/ML 服务集成,PolarDB 能够为企业提供端到端的数据处理和分析解决方案。
131 0
|
4月前
|
监控 Cloud Native 关系型数据库
【跨区域PolarDB-MySQL主备互通】:揭秘如何跨越万里实现数据无缝同步,打造坚不可摧的灾备体系!
【8月更文挑战第20天】阿里云PolarDB是一款兼容MySQL协议的云原生数据库服务,提供高性能与高可用性。本文介绍如何在PolarDB-MySQL中实现跨区域主备同步。首先创建主备两个集群,接着通过MySQL复制功能配置同步:获取主节点复制信息、配置备节点复制并启动复制进程。最后,通过`SHOW SLAVE STATUS\G;`监控复制状态,确保数据同步正常。此方法可提升数据的可靠性和可用性,需考虑网络条件对性能的影响。
133 0
|
2月前
|
关系型数据库 MySQL 分布式数据库
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶!
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶,邀请好友完成更有机会获得​小米Watch S3、小米体重称​等诸多好礼!
零基础教你用云数据库PolarDB搭建企业网站,完成就送桌面收纳桶!
|
3月前
|
关系型数据库 MySQL Serverless
探索PolarDB MySQL版:Serverless数据库的灵活性与性能
本文介绍了个人开发者对阿里云PolarDB MySQL版,特别是其Serverless特性的详细评测体验。评测涵盖了产品初体验、性能观测、Serverless特性深度评测及成本效益分析等方面。尽管试用过程中遇到一些小问题,但总体而言,PolarDB MySQL版表现出色,提供了高性能、高可用性和灵活的资源管理,是个人开发者和企业用户的优秀选择。

相关产品

  • 云原生分布式数据库 PolarDB-X
  • 下一篇
    无影云桌面