step-by-step通过数据集成同步数据到HBase

本文涉及的产品
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDSClaw,2核4GB
简介: 数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。本文将介绍如何使用数据集成将数据同步到HBase。我们以如下场景为例:线上有两个云HBase集群,想把其中一个集群的数据同步到另一个集群中。

数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。本文将介绍如何使用数据集成将数据同步到HBase。我们以如下场景为例:线上有两个云HBase集群,想把其中一个集群的数据同步到另一个集群中。
HBase列表.png
源表.png

第一步 创建数据集成项目

在使用数据集成同步数据之前,我们需要先在MaxCompute产品首页购买资源并创建一个项目。后续的数据同步任务就是放在这个项目下面执行的。具体步骤参见购买并创建项目
购买的资源不必和HBase在同一地区。如果已经创建过项目,可以忽略这一步。

第二步 准备调度资源

出于安全方面的考虑,目前HBase导入数据只支持本地模式,所以需要用户先申请ECS并将ESC添加到数据同步的资源组用于执行同步任务。

2.1 申请ECS

在HBase所在Region的任意Zone购买一台ECS,然后设置HBase的白名单。
注意:
(1)ECS要能够访问到HBase,在我们的例子中,两个HBase集群都是经典网络,所以我们购买一台经典网络的ECS,然后设置HBase的白名单即可。如果HBase是vpc网络,可参考HBase访问准备
(2)如果HBase和ECS是专有网络的话,ECS需要绑定公网IP,因为公网 IP 对于数据集成的汇报心跳非常重要。在创建时可以选择分配公网IP,也可以创建后绑定弹性公网 IP

2.2 新增调度资源

1、项目管理员进入进入 大数据开发套件-调度资源列表,点击 新增调度资源,填写新增的调度资源名称,如下图所示:
新增调度资源.png
2、添加调度资源后,在弹窗界面内点击新建调度资源操作栏中的 服务器管理,进入服务器添加页面,将购买的 ECS 云服务器添加到资源组,如下图所示:
管理服务器1.png
3、点击增加服务器;
管理服务器.png
网络类型:选择经典网络;
服务器名称:获取方式:登录 ECS,执行 hostname 命令,取返回值;
机器 IP:输入专有网络 IP。
4、在调度资源管理页面,点击“服务器初始化”,然后按照弹出的提示在ECS上进行操作。
初始化服务器.png
执行完安装命令后,可以看到服务器状态已显示为“正常”。

第三步 创建数据同步任务

HBase目前不支持向导模式,所以需要创建脚本模式任务并修改脚本中的插件配置。

3.1 创建脚本模式任务

1、以开发者身份进入 阿里云数加平台>大数据开发套件>管理控制台,点击“项目列表”下对应项目操作栏中的 进入工作区 ;
2、点击顶部菜单栏中的 数据集成 中左侧导航栏的 同步任务 ;
3、点击界面中的 “脚本模式”;
脚本模式.png
4、在弹出的“导入模板”中选择自己需要的“来源类型”和“目标类型”,如下图所示:
导入模版.png
云HBase的版本是1.1,所以目标类型选择“HBase11x”,我们的例子中,源也是云HBase,所以源类型也选择“HBase11x”。
5、点确定后,会按照模版生成默认的配置,先保存。
默认配置.png

3.2 修改插件配置

reader需要改如下几个地方:
(1)column和table按照我们实际情况修改。
(2)我们同步全量数据,所以把range和maxversion删掉。
(3)hbaseconfig中,hbase.rootdir是不需要的,可以删掉。hbase.zookeeper.quorum可以在HBase实例的管理控制台查看。
zk地址.png
writer需要修改如下几个地方:
(1)rowkeyColumn。在我们的例子中,源表的rowkey导入过来直接做rowkey,所以把rowkeyColumn里面默认生成的:

          {
            "index": -1,
            "type": "string",
            "value": "_"
         }

删掉。
(2)column和table按照实际情况修改。注意在运行同步任务前要确保已经建好目标表和列族。
(3)versionColumn在我们的例子里不需要,删掉。
(4)hbaseConfig和源插件类似,把hbase.rootdir删掉,hbase.zookeeper.quorum改成目标HBase的zk地址。
其他选项也可以根据实际情况修改。例如,可以修改speed里面的选项增加并行度。具体可参考HbaseReader 配置HbaseWriter 配置以及脚本模式的配置

我们的例子中,最终的插件配置如下:

{
  "configuration": {
    "reader": {
      "plugin": "hbase11x",
      "parameter": {
        "mode": "normal",
        "scanCacheSize": "256",
        "scanBatchSize": "100",
        "column": [
          {
            "name": "rowkey",
            "type": "string"
          },
          {
            "name": "cf:a",
            "type": "string"
          }
        ],
        "encoding": "UTF-8",
        "table": "test",
        "hbaseConfig": {
          "hbase.zookeeper.quorum": "hb-2ze5mewh34cfy7960-001.hbase.rds.aliyuncs.com:2181,hb-2ze5mewh34cfy7960-002.hbase.rds.aliyuncs.com:2181,hb-2ze5mewh34cfy7960-004.hbase.rds.aliyuncs.com:2181",
          "hbase.cluster.distributed": "true"
        }
      }
    },
    "writer": {
      "plugin": "hbase11x",
      "parameter": {
        "mode": "normal",
        "walFlag": "false",
        "rowkeyColumn": [
          {
            "index": 0,
            "type": "string"
          }
        ],
        "nullMode": "skip",
        "column": [
          {
            "name": "cf:a",
            "index": 1,
            "type": "string"
          }
        ],
        "encoding": "UTF-8",
        "table": "test",
        "hbaseConfig": {
          "hbase.zookeeper.quorum": "hb-2zel37texpqo9umcw-001.hbase.rds.aliyuncs.com:2181,hb-2zel37texpqo9umcw-002.hbase.rds.aliyuncs.com:2181,hb-2zel37texpqo9umcw-004.hbase.rds.aliyuncs.com:2181",
          "hbase.cluster.distributed": "true"
        }
      }
    },
    "setting": {
      "errorLimit": {
        "record": "0"
      },
      "speed": {
        "concurrent": "1",
        "mbps": "1"
      }
    }
  },
  "type": "job",
  "version": "1.0"
}

修改完成后,保存。点击“提交”。
提交任务.png
提交任务页面“一次性调度”选不了,如果我们不希望任务周期性运行的话,可以把时间改成当天。

第四步 运行任务

4.1 修改调度资源组

1、进入 大数据开发套件-运维中心-任务管理 页面,点击 列表;
任务列表.png
2、选择同步任务,点击 修改资源组;
修改资源组.png
3、选择我们在第二步创建的资源组,点击 确认。

4.2 运行任务

在任务管理页面,点击 操作-补数据。然后等待任务完成。
任务成功.png
任务执行成功,我们在目标HBase里面已经看到有数据了。

相关文章
|
机器学习/深度学习 JSON JavaScript
图文讲解 Stable Diffusion API 调用教程
Stable Diffusion 是一个先进的深度学习模型,用于创造和修改图像。这个模型能够基于文本描述来生成图像,让机器理解和实现用户的创意。使用这项技术的关键在于掌握其 API,通过编程来操控图像生成的过程。
|
7月前
|
人工智能 Java 数据库
Spring AI
Spring AI 为 Java 生态注入智能,提供统一抽象接口,简化大模型集成,助力开发者高效构建 AI 应用,推动企业智能化转型。
1274 147
|
机器学习/深度学习 人工智能 自然语言处理
如何构建企业级数据智能体:Data Agent 开发实践
本篇将介绍DMS的一款数据分析智能体(Data Agent for Analytics )产品的技术思考和实践。Data Agent for Analytics 定位为一款企业级数据分析智能体, 基于Agentic AI 技术,帮助用户查数据、做分析、生成报告、深入洞察。
|
机器学习/深度学习 自然语言处理 人机交互
音频基座大模型FunAudioLLM体验评测
一文带你详细了解音频基座大模型FunAudioLLM
3654 5
|
JavaScript 前端开发 测试技术
Angular 与 Node.js 无缝对接简直太牛啦!前后端分离最佳实践,开启高效开发新时代!
【8月更文挑战第31天】随着互联网技术的发展,前后端分离模式日益受到开发者青睐。本文综述了 Angular 与 Node.js 的优势及无缝对接技术,探讨了前后端分离的最佳实践。Angular 以其组件化开发、双向数据绑定等特性成为优秀的前端框架;Node.js 则依靠高并发处理能力和全栈 JavaScript 开发的优势在后端大放异彩。两者结合通过 HTTP 请求实现高效通信,并可通过数据库实现数据共享。此外,文章还强调了接口设计、代码分离、测试及部署等方面的最佳实践,为开发者提供了全面的指导。
647 0
|
SQL API 数据处理
实时计算 Flink版产品使用合集之是否可以使用 Iceberg 将数据写入 HDFS
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
209 0
|
SQL Linux Shell
centos yum 升级 glibc
在 CentOS 上使用 YUM 升级 GLIBC 库需要谨慎操作,因为 GLIBC 库是系统的基础组件,错误的升级可能导致系统不稳定或与现有应用程序不兼容。 以下是升级 GLIBC 库的步骤: 1. 备份重要数据:在执行任何系统级更改之前,请确保备份重要的数据和配置文件,以防止数据丢失或配置错误。 2. 更新系统:使用 YUM 更新系统软件包,确保系统是最新的稳定版本。可以使用以下命令进行更新: ```sql sudo yum update ``` 3. 备份 GLIBC 库:在升级之前,建议备份当前的 GLIBC 库。可以使用以下命令进行备份: ```bash sudo cp
7907 0
|
SQL JSON 分布式计算
spark/Flink 导入导出starrocks
spark/Flink 导入导出starrocks
spark/Flink 导入导出starrocks
|
存储 分布式计算 NoSQL
HBase的数据结构原理与使用
关键词:HBase Hadoop 大数据 大数据存储 数据开发 数据库
1814 0
HBase的数据结构原理与使用