文件存储HDFS版和数据库MySQL双向数据迁移

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 本文档介绍如何使用Sqoop工具实现文件存储HDFS版和关系型数据库MySQL之间的双向数据迁移。

背景信息

Sqoop是一款开源的工具,主要用于在Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据 。既可以将一个关系型数据库(MySQL 、Oracle 、Postgres等)中的数据导入HDFS中,也可以将HDFS的数据导入到关系型数据库中。


准备工作

  1. 开通文件存储HDFS版服务并创建文件系统实例和挂载点,详情请参见:快速入门
  2. 搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.2,本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。
  3. 在Hadoop集群所有节点上安装JDK。本操作要求JDK版本不低于1.8。
  4. 在Hadoop集群中配置文件存储HDFS实例,详情请参见:挂载文件系统


安装Sqoop

现在Sqoop分为Sqoop1和Sqoop2,两个版本并不兼容。本案例选择使用Sqoop1的稳定版本Sqoop 1.4.7

  1. 下载Sqoop 1.4.7 版本
  2. 解压安装包。
tar -zxf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/local/
  1. 配置环境变量。
  1. 执行vim /etc/profile命令,打开配置文件,添加如下内容。
exportSQOOP_HOME=/usr/local/sqoop-1.4.7.bin__hadoop-2.6.0
exportPATH=$PATH:$SQOOP_HOME/bin

        b. 执行source /etc/profile命令,使配置生效。


  1. 添加数据库驱动。
# 下载wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.48.tar.gz
# 解压tar -zxf mysql-connector-java-5.1.48.tar.gz
# 将MySQL链接包复制到Sqoop安装目录的lib目录下cp ./mysql-connector-java-5.1.48/mysql-connector-java-5.1.48.jar ${SQOOP_HOME}/lib/
  1. 修改配置文件。
  1. 复制sqoop-env-template.sh,并命名为sqoop-env.sh
cp${SQOOP_HOME}/conf/sqoop-env-template.sh ${SQOOP_HOME}/conf/sqoop-env.sh

  b. 执行vim ${SQOOP_HOME}/conf/sqoop-env.sh命令打开配置文件,添加如下内容。

exportHADOOP_COMMON_HOME=/usr/local/hadoop-2.8.5
exportHADOOP_MAPRED_HOME=$HADOOP_COMMON_HOMEexportHIVE_HOME=/usr/local/apache-hive-2.3.9-bin   #若没有安装hive可不必添加此配置

   c. 执行cp ${HIVE_HOME}/lib/hive-common-2.3.9.jar ${SQOOP_HOME}/lib/命令复制文件。


  1. 执行如下命令验证数据库是否连接成功。
sqoop list-databases --connect jdbc:mysql://<dburi> --username'username'--password'password'

如果回显信息中显示MySQL数据库的名称,则表示连接成功。


参数

说明

dburi

数据库的访问连接,例如: jdbc:mysql://localhost:3306/。

username

数据库登录用户名。

password

用户密码。


验证

将文件存储HDFS的数据迁移到MySQL上

将文件存储HDFS的数据迁移到MySQL上,需要先在MySQL上创建好对应数据结构的表,然后在集群Sqoop节点上使用sqoop export命令进行迁移。


此处以迁移文件存储HDFS/sqoop2mysql/table/mysqltest.txt中的数据为例,mysqltest.txt中已写入如下数据。

6,测试用户6,2019-08-10,男
7,测试用户7,2019-08-11,男
8,测试用户8,2019-08-12,男
9,测试用户9,2019-08-13,女
10,测试用户10,2019-08-14,女
  1. 创建MySQL数据库。
create database sqoop_migrate;
  1. 创建表。
use sqoop_migrate;CREATETABLE `employee` (  `e_id` varchar(20)NOTNULL DEFAULT '',  `e_name` varchar(20)NOTNULL DEFAULT '',  `e_birth` varchar(20)NOTNULL DEFAULT '',  `e_sex` varchar(10)NOTNULL DEFAULT '',  PRIMARY KEY (`e_id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;
  1. 执行以下命令迁移数据。
 sqoop export--connect jdbc:mysql://localhost:3306/sqoop_migrate  --username'userName'--password'userPW'--num-mappers1--table employee  --columns"e_id,e_name,e_birth,e_sex"--export-dir'/sqoop2mysql/table/mysqltest.txt'--fields-terminated-by','

迁移命令格式:sqoop export --connect jdbc:mysql:/// --username  --password  --table  --export-dir

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hdfs-dir

存放待迁移数据的文件存储HDFS目录。


  1. 验证迁移结果。

执行select * from employee;命令查看表数据。

如果表中有如下数据,则表示迁移成功。


将MySQL的数据迁移到文件存储HDFS

在集群Sqoop节点上,使用sqoop import命令将MySQL中的数据迁移到文件存储HDFS上。

此处以迁移MySQL中的employee表为例,employee表中已写入如下数据。


  1. 执行以下命令迁移数据。
sqoop import --connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'userPW'--table employee  --target-dir /mysql2sqoop/table/sqoop_migrate  --num-mappers1--columns"e_id,e_name,e_birth,e_sex"--direct

命令格式:sqoop import --connect jdbc:mysql:/// --username  --password  --table  --check-column  --incremental  --last-value  --target-dir

参数说明如下所示,更多详情请参见Sqoop Import

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

col

迁移表中列的名称。

mode

该模式决定Sqoop如何定义哪些行为新的行。取值:append或lastmodified。

value

前一个导入中检查列的最大值。

hdfs-dir

文件存储HDFS的写入目录。


  1. 检查迁移结果。
  1. 执行hadoop fs -ls /mysql2sqoop/table/sqoop_migrate命令,获取迁移文件。

       b. 执行hadoop fs -cat /mysql2sqoop/table/sqoop_migrate/part-m-00000命令查看文件中的内容。


将MySQL的数据迁移到Hive上

在集群Sqoop节点上使用sqoop import命令可以将MySQL上的数据迁移到Hive上。

此处以迁移MySQL中的employee表为例,employee表中已写入如下数据。


  1. 执行以下命令迁移数据。
sqoop import --connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'PW'--table employee   --hive-import--hive-database default  --create-hive-table--hive-overwrite-m1

迁移命令格式:sqoop import --connect jdbc:mysql:/// --username  --password  --table  --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --target-dir  --hive-table

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hdfs-dir

文件存储HDFS的写入目录。

hive-tablename

对应的Hive中的表名。

  1. 验证迁移结果。

执行select * from default.employee;命令查看表数据,如果表中有如下数据,则表示迁移成功。


将Hive的数据迁移到MySQL上

将Hive的数据迁移到MySQL上,需要先在MySQL上创建好对应Hive数据结构的表,然后在集群Sqoop节点上使用sqoop export命令进行迁移。

此处以迁移Hive上default.employee表中的数据为例,该表中已写入如下数据。


  1. 在MySQL上的sqoop_migrate库中创建好要导入的表。
use sqoop_migrate;CREATETABLE `employee_from_hive`(  `id` VARCHAR(20),  `name` VARCHAR(20)NOTNULL DEFAULT '',  `birth` VARCHAR(20)NOTNULL DEFAULT '',  `sex` VARCHAR(10)NOTNULL DEFAULT '',  PRIMARY KEY(`id`));


  1. 执行DESCRIBE FORMATTED default.employee;命令查看表信息。


  1. 执行以下命令迁移数据。
sqoop export--connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'userPW'--table employee_from_hive -m1--fields-terminated-by'\0001'--export-dir /user/hive/warehouse/employee

迁移命令格式:sqoop export --connect jdbc:mysql:/// --username  --password  --table  --export-dir  --fields-terminated-by

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hive-dir

存放待迁移数据的文件存储HDFS目录。

Splitter

Hive表数据使用的分隔符。


  1. 验证迁移结果。

执行select * from sqoop_migrate.employee_from_hive;命令查看表数据。

如果表中有如下数据,则表示迁移成功。


了解更多关于文件存储HDFS版的产品信息,欢迎访问https://www.aliyun.com/product/alidfs

如果您对文件存储HDFS版有任何问题,欢迎钉钉扫描以下二维码加入文件存储HDFS版技术交流群。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
16天前
|
NoSQL 关系型数据库 MySQL
微服务架构下的数据库选择:MySQL、PostgreSQL 还是 NoSQL?
在微服务架构中,数据库的选择至关重要。不同类型的数据库适用于不同的需求和场景。在本文章中,我们将深入探讨传统的关系型数据库(如 MySQL 和 PostgreSQL)与现代 NoSQL 数据库的优劣势,并分析在微服务架构下的最佳实践。
|
18天前
|
存储 SQL 关系型数据库
使用MySQL Workbench进行数据库备份
【9月更文挑战第13天】以下是使用MySQL Workbench进行数据库备份的步骤:启动软件后,通过“Database”菜单中的“管理连接”选项配置并选择要备份的数据库。随后,选择“数据导出”,确认导出的数据库及格式(推荐SQL格式),设置存储路径,点击“开始导出”。完成后,可在指定路径找到备份文件,建议定期备份并存储于安全位置。
158 11
|
13天前
|
存储 SQL 关系型数据库
MySQL的安装&数据库的简单操作
本文介绍了数据库的基本概念及MySQL的安装配置。首先解释了数据库、数据库管理系统和SQL的概念,接着详细描述了MySQL的安装步骤及其全局配置文件my.ini的调整方法。文章还介绍了如何启动MySQL服务,包括配置环境变量和使用命令行的方法。最后,详细说明了数据库的各种操作,如创建、选择和删除数据库的SQL语句,并提供了实际操作示例。
57 13
MySQL的安装&数据库的简单操作
|
19天前
|
存储 SQL 关系型数据库
一篇文章搞懂MySQL的分库分表,从拆分场景、目标评估、拆分方案、不停机迁移、一致性补偿等方面详细阐述MySQL数据库的分库分表方案
MySQL如何进行分库分表、数据迁移?从相关概念、使用场景、拆分方式、分表字段选择、数据一致性校验等角度阐述MySQL数据库的分库分表方案。
一篇文章搞懂MySQL的分库分表,从拆分场景、目标评估、拆分方案、不停机迁移、一致性补偿等方面详细阐述MySQL数据库的分库分表方案
|
3天前
|
Oracle NoSQL 关系型数据库
主流数据库对比:MySQL、PostgreSQL、Oracle和Redis的优缺点分析
主流数据库对比:MySQL、PostgreSQL、Oracle和Redis的优缺点分析
14 2
|
9天前
|
SQL 关系型数据库 MySQL
创建包含MySQL和SQLServer数据库所有字段类型的表的方法
创建一个既包含MySQL又包含SQL Server所有字段类型的表是一个复杂的任务,需要仔细地比较和转换数据类型。通过上述方法,可以在两个数据库系统之间建立起相互兼容的数据结构,为数据迁移和同步提供便利。这一过程不仅要考虑数据类型的直接对应,还要注意特定数据类型在不同系统中的表现差异,确保数据的一致性和完整性。
22 4
|
18天前
|
SQL 监控 关系型数据库
MySQL数据库中如何检查一条SQL语句是否被回滚
检查MySQL中的SQL语句是否被回滚需要综合使用日志分析、事务状态监控和事务控制语句。理解和应用这些工具和命令,可以有效地管理和验证数据库事务的执行情况,确保数据的一致性和系统的稳定性。此外,熟悉事务的ACID属性和正确设置事务隔离级别对于预防数据问题和解决事务冲突同样重要。
29 2
|
SQL Java 数据库连接
MySQL---数据库从入门走向大神系列(十五)-Apache的DBUtils框架使用
MySQL---数据库从入门走向大神系列(十五)-Apache的DBUtils框架使用
178 0
MySQL---数据库从入门走向大神系列(十五)-Apache的DBUtils框架使用
|
SQL 关系型数据库 MySQL
MySQL---数据库从入门走向大神系列(六)-事务处理与事务隔离(锁机制)
MySQL---数据库从入门走向大神系列(六)-事务处理与事务隔离(锁机制)
133 0
MySQL---数据库从入门走向大神系列(六)-事务处理与事务隔离(锁机制)
|
存储 SQL 关系型数据库
MySQL---数据库从入门走向大神系列(五)-存储过程
MySQL---数据库从入门走向大神系列(五)-存储过程
134 0
MySQL---数据库从入门走向大神系列(五)-存储过程

热门文章

最新文章

下一篇
无影云桌面