文件存储HDFS版和数据库MySQL双向数据迁移

本文涉及的产品
对象存储 OSS,20GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
云备份 Cloud Backup,100GB 3个月
简介: 本文档介绍如何使用Sqoop工具实现文件存储HDFS版和关系型数据库MySQL之间的双向数据迁移。

背景信息

Sqoop是一款开源的工具,主要用于在Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据 。既可以将一个关系型数据库(MySQL 、Oracle 、Postgres等)中的数据导入HDFS中,也可以将HDFS的数据导入到关系型数据库中。


准备工作

  1. 开通文件存储HDFS版服务并创建文件系统实例和挂载点,详情请参见:快速入门
  2. 搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.2,本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。
  3. 在Hadoop集群所有节点上安装JDK。本操作要求JDK版本不低于1.8。
  4. 在Hadoop集群中配置文件存储HDFS实例,详情请参见:挂载文件系统


安装Sqoop

现在Sqoop分为Sqoop1和Sqoop2,两个版本并不兼容。本案例选择使用Sqoop1的稳定版本Sqoop 1.4.7

  1. 下载Sqoop 1.4.7 版本
  2. 解压安装包。
tar -zxf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/local/
  1. 配置环境变量。
  1. 执行vim /etc/profile命令,打开配置文件,添加如下内容。
exportSQOOP_HOME=/usr/local/sqoop-1.4.7.bin__hadoop-2.6.0
exportPATH=$PATH:$SQOOP_HOME/bin

        b. 执行source /etc/profile命令,使配置生效。


  1. 添加数据库驱动。
# 下载wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.48.tar.gz
# 解压tar -zxf mysql-connector-java-5.1.48.tar.gz
# 将MySQL链接包复制到Sqoop安装目录的lib目录下cp ./mysql-connector-java-5.1.48/mysql-connector-java-5.1.48.jar ${SQOOP_HOME}/lib/
  1. 修改配置文件。
  1. 复制sqoop-env-template.sh,并命名为sqoop-env.sh
cp${SQOOP_HOME}/conf/sqoop-env-template.sh ${SQOOP_HOME}/conf/sqoop-env.sh

  b. 执行vim ${SQOOP_HOME}/conf/sqoop-env.sh命令打开配置文件,添加如下内容。

exportHADOOP_COMMON_HOME=/usr/local/hadoop-2.8.5
exportHADOOP_MAPRED_HOME=$HADOOP_COMMON_HOMEexportHIVE_HOME=/usr/local/apache-hive-2.3.9-bin   #若没有安装hive可不必添加此配置

   c. 执行cp ${HIVE_HOME}/lib/hive-common-2.3.9.jar ${SQOOP_HOME}/lib/命令复制文件。


  1. 执行如下命令验证数据库是否连接成功。
sqoop list-databases --connect jdbc:mysql://<dburi> --username'username'--password'password'

如果回显信息中显示MySQL数据库的名称,则表示连接成功。


参数

说明

dburi

数据库的访问连接,例如: jdbc:mysql://localhost:3306/。

username

数据库登录用户名。

password

用户密码。


验证

将文件存储HDFS的数据迁移到MySQL上

将文件存储HDFS的数据迁移到MySQL上,需要先在MySQL上创建好对应数据结构的表,然后在集群Sqoop节点上使用sqoop export命令进行迁移。


此处以迁移文件存储HDFS/sqoop2mysql/table/mysqltest.txt中的数据为例,mysqltest.txt中已写入如下数据。

6,测试用户6,2019-08-10,男
7,测试用户7,2019-08-11,男
8,测试用户8,2019-08-12,男
9,测试用户9,2019-08-13,女
10,测试用户10,2019-08-14,女
  1. 创建MySQL数据库。
create database sqoop_migrate;
  1. 创建表。
use sqoop_migrate;CREATETABLE `employee` (  `e_id` varchar(20)NOTNULL DEFAULT '',  `e_name` varchar(20)NOTNULL DEFAULT '',  `e_birth` varchar(20)NOTNULL DEFAULT '',  `e_sex` varchar(10)NOTNULL DEFAULT '',  PRIMARY KEY (`e_id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;
  1. 执行以下命令迁移数据。
 sqoop export--connect jdbc:mysql://localhost:3306/sqoop_migrate  --username'userName'--password'userPW'--num-mappers1--table employee  --columns"e_id,e_name,e_birth,e_sex"--export-dir'/sqoop2mysql/table/mysqltest.txt'--fields-terminated-by','

迁移命令格式:sqoop export --connect jdbc:mysql:/// --username  --password  --table  --export-dir

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hdfs-dir

存放待迁移数据的文件存储HDFS目录。


  1. 验证迁移结果。

执行select * from employee;命令查看表数据。

如果表中有如下数据,则表示迁移成功。


将MySQL的数据迁移到文件存储HDFS

在集群Sqoop节点上,使用sqoop import命令将MySQL中的数据迁移到文件存储HDFS上。

此处以迁移MySQL中的employee表为例,employee表中已写入如下数据。


  1. 执行以下命令迁移数据。
sqoop import --connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'userPW'--table employee  --target-dir /mysql2sqoop/table/sqoop_migrate  --num-mappers1--columns"e_id,e_name,e_birth,e_sex"--direct

命令格式:sqoop import --connect jdbc:mysql:/// --username  --password  --table  --check-column  --incremental  --last-value  --target-dir

参数说明如下所示,更多详情请参见Sqoop Import

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

col

迁移表中列的名称。

mode

该模式决定Sqoop如何定义哪些行为新的行。取值:append或lastmodified。

value

前一个导入中检查列的最大值。

hdfs-dir

文件存储HDFS的写入目录。


  1. 检查迁移结果。
  1. 执行hadoop fs -ls /mysql2sqoop/table/sqoop_migrate命令,获取迁移文件。

       b. 执行hadoop fs -cat /mysql2sqoop/table/sqoop_migrate/part-m-00000命令查看文件中的内容。


将MySQL的数据迁移到Hive上

在集群Sqoop节点上使用sqoop import命令可以将MySQL上的数据迁移到Hive上。

此处以迁移MySQL中的employee表为例,employee表中已写入如下数据。


  1. 执行以下命令迁移数据。
sqoop import --connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'PW'--table employee   --hive-import--hive-database default  --create-hive-table--hive-overwrite-m1

迁移命令格式:sqoop import --connect jdbc:mysql:/// --username  --password  --table  --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --target-dir  --hive-table

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hdfs-dir

文件存储HDFS的写入目录。

hive-tablename

对应的Hive中的表名。

  1. 验证迁移结果。

执行select * from default.employee;命令查看表数据,如果表中有如下数据,则表示迁移成功。


将Hive的数据迁移到MySQL上

将Hive的数据迁移到MySQL上,需要先在MySQL上创建好对应Hive数据结构的表,然后在集群Sqoop节点上使用sqoop export命令进行迁移。

此处以迁移Hive上default.employee表中的数据为例,该表中已写入如下数据。


  1. 在MySQL上的sqoop_migrate库中创建好要导入的表。
use sqoop_migrate;CREATETABLE `employee_from_hive`(  `id` VARCHAR(20),  `name` VARCHAR(20)NOTNULL DEFAULT '',  `birth` VARCHAR(20)NOTNULL DEFAULT '',  `sex` VARCHAR(10)NOTNULL DEFAULT '',  PRIMARY KEY(`id`));


  1. 执行DESCRIBE FORMATTED default.employee;命令查看表信息。


  1. 执行以下命令迁移数据。
sqoop export--connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'userPW'--table employee_from_hive -m1--fields-terminated-by'\0001'--export-dir /user/hive/warehouse/employee

迁移命令格式:sqoop export --connect jdbc:mysql:/// --username  --password  --table  --export-dir  --fields-terminated-by

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hive-dir

存放待迁移数据的文件存储HDFS目录。

Splitter

Hive表数据使用的分隔符。


  1. 验证迁移结果。

执行select * from sqoop_migrate.employee_from_hive;命令查看表数据。

如果表中有如下数据,则表示迁移成功。


了解更多关于文件存储HDFS版的产品信息,欢迎访问https://www.aliyun.com/product/alidfs

如果您对文件存储HDFS版有任何问题,欢迎钉钉扫描以下二维码加入文件存储HDFS版技术交流群。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
23天前
|
关系型数据库 MySQL 数据库连接
数据库连接工具连接mysql提示:“Host ‘172.23.0.1‘ is not allowed to connect to this MySQL server“
docker-compose部署mysql8服务后,连接时提示不允许连接问题解决
|
10天前
|
关系型数据库 MySQL 数据库
Docker Compose V2 安装常用数据库MySQL+Mongo
以上内容涵盖了使用 Docker Compose 安装和管理 MySQL 和 MongoDB 的详细步骤,希望对您有所帮助。
82 42
|
1天前
|
关系型数据库 MySQL 网络安全
如何排查和解决PHP连接数据库MYSQL失败写锁的问题
通过本文的介绍,您可以系统地了解如何排查和解决PHP连接MySQL数据库失败及写锁问题。通过检查配置、确保服务启动、调整防火墙设置和用户权限,以及识别和解决长时间运行的事务和死锁问题,可以有效地保障应用的稳定运行。
40 25
|
28天前
|
缓存 关系型数据库 MySQL
【深入了解MySQL】优化查询性能与数据库设计的深度总结
本文详细介绍了MySQL查询优化和数据库设计技巧,涵盖基础优化、高级技巧及性能监控。
221 0
|
2月前
|
存储 Oracle 关系型数据库
数据库传奇:MySQL创世之父的两千金My、Maria
《数据库传奇:MySQL创世之父的两千金My、Maria》介绍了MySQL的发展历程及其分支MariaDB。MySQL由Michael Widenius等人于1994年创建,现归Oracle所有,广泛应用于阿里巴巴、腾讯等企业。2009年,Widenius因担心Oracle收购影响MySQL的开源性,创建了MariaDB,提供额外功能和改进。维基百科、Google等已逐步替换为MariaDB,以确保更好的性能和社区支持。掌握MariaDB作为备用方案,对未来发展至关重要。
72 3
|
2月前
|
安全 关系型数据库 MySQL
MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!
《MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!》介绍了MySQL中的三种关键日志:二进制日志(Binary Log)、重做日志(Redo Log)和撤销日志(Undo Log)。这些日志确保了数据库的ACID特性,即原子性、一致性、隔离性和持久性。Redo Log记录数据页的物理修改,保证事务持久性;Undo Log记录事务的逆操作,支持回滚和多版本并发控制(MVCC)。文章还详细对比了InnoDB和MyISAM存储引擎在事务支持、锁定机制、并发性等方面的差异,强调了InnoDB在高并发和事务处理中的优势。通过这些机制,MySQL能够在事务执行、崩溃和恢复过程中保持
118 3
|
2月前
|
SQL 关系型数据库 MySQL
数据库灾难应对:MySQL误删除数据的救赎之道,技巧get起来!之binlog
《数据库灾难应对:MySQL误删除数据的救赎之道,技巧get起来!之binlog》介绍了如何利用MySQL的二进制日志(Binlog)恢复误删除的数据。主要内容包括: 1. **启用二进制日志**:在`my.cnf`中配置`log-bin`并重启MySQL服务。 2. **查看二进制日志文件**:使用`SHOW VARIABLES LIKE &#39;log_%&#39;;`和`SHOW MASTER STATUS;`命令获取当前日志文件及位置。 3. **创建数据备份**:确保在恢复前已有备份,以防意外。 4. **导出二进制日志为SQL语句**:使用`mysqlbinlog`
115 2
|
2月前
|
关系型数据库 MySQL 数据库
Python处理数据库:MySQL与SQLite详解 | python小知识
本文详细介绍了如何使用Python操作MySQL和SQLite数据库,包括安装必要的库、连接数据库、执行增删改查等基本操作,适合初学者快速上手。
374 15
|
2月前
|
SQL 关系型数据库 MySQL
数据库数据恢复—Mysql数据库表记录丢失的数据恢复方案
Mysql数据库故障: Mysql数据库表记录丢失。 Mysql数据库故障表现: 1、Mysql数据库表中无任何数据或只有部分数据。 2、客户端无法查询到完整的信息。
|
2月前
|
关系型数据库 MySQL 数据库
数据库数据恢复—MYSQL数据库文件损坏的数据恢复案例
mysql数据库文件ibdata1、MYI、MYD损坏。 故障表现:1、数据库无法进行查询等操作;2、使用mysqlcheck和myisamchk无法修复数据库。