文件存储HDFS版和数据库MySQL双向数据迁移

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储OSS,敏感数据保护2.0 200GB 1年
文件存储 NAS,50GB 3个月
简介: 本文档介绍如何使用Sqoop工具实现文件存储HDFS版和关系型数据库MySQL之间的双向数据迁移。

背景信息

Sqoop是一款开源的工具,主要用于在Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据 。既可以将一个关系型数据库(MySQL 、Oracle 、Postgres等)中的数据导入HDFS中,也可以将HDFS的数据导入到关系型数据库中。


准备工作

  1. 开通文件存储HDFS版服务并创建文件系统实例和挂载点,详情请参见:快速入门
  2. 搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.2,本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。
  3. 在Hadoop集群所有节点上安装JDK。本操作要求JDK版本不低于1.8。
  4. 在Hadoop集群中配置文件存储HDFS实例,详情请参见:挂载文件系统


安装Sqoop

现在Sqoop分为Sqoop1和Sqoop2,两个版本并不兼容。本案例选择使用Sqoop1的稳定版本Sqoop 1.4.7

  1. 下载Sqoop 1.4.7 版本
  2. 解压安装包。
tar -zxf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/local/
  1. 配置环境变量。
  1. 执行vim /etc/profile命令,打开配置文件,添加如下内容。
exportSQOOP_HOME=/usr/local/sqoop-1.4.7.bin__hadoop-2.6.0
exportPATH=$PATH:$SQOOP_HOME/bin

        b. 执行source /etc/profile命令,使配置生效。


  1. 添加数据库驱动。
# 下载wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.48.tar.gz
# 解压tar -zxf mysql-connector-java-5.1.48.tar.gz
# 将MySQL链接包复制到Sqoop安装目录的lib目录下cp ./mysql-connector-java-5.1.48/mysql-connector-java-5.1.48.jar ${SQOOP_HOME}/lib/
  1. 修改配置文件。
  1. 复制sqoop-env-template.sh,并命名为sqoop-env.sh
cp${SQOOP_HOME}/conf/sqoop-env-template.sh ${SQOOP_HOME}/conf/sqoop-env.sh

  b. 执行vim ${SQOOP_HOME}/conf/sqoop-env.sh命令打开配置文件,添加如下内容。

exportHADOOP_COMMON_HOME=/usr/local/hadoop-2.8.5
exportHADOOP_MAPRED_HOME=$HADOOP_COMMON_HOMEexportHIVE_HOME=/usr/local/apache-hive-2.3.9-bin   #若没有安装hive可不必添加此配置

   c. 执行cp ${HIVE_HOME}/lib/hive-common-2.3.9.jar ${SQOOP_HOME}/lib/命令复制文件。


  1. 执行如下命令验证数据库是否连接成功。
sqoop list-databases --connect jdbc:mysql://<dburi> --username'username'--password'password'

如果回显信息中显示MySQL数据库的名称,则表示连接成功。


参数

说明

dburi

数据库的访问连接,例如: jdbc:mysql://localhost:3306/。

username

数据库登录用户名。

password

用户密码。


验证

将文件存储HDFS的数据迁移到MySQL上

将文件存储HDFS的数据迁移到MySQL上,需要先在MySQL上创建好对应数据结构的表,然后在集群Sqoop节点上使用sqoop export命令进行迁移。


此处以迁移文件存储HDFS/sqoop2mysql/table/mysqltest.txt中的数据为例,mysqltest.txt中已写入如下数据。

6,测试用户6,2019-08-10,男
7,测试用户7,2019-08-11,男
8,测试用户8,2019-08-12,男
9,测试用户9,2019-08-13,女
10,测试用户10,2019-08-14,女
  1. 创建MySQL数据库。
create database sqoop_migrate;
  1. 创建表。
use sqoop_migrate;CREATETABLE `employee` (  `e_id` varchar(20)NOTNULL DEFAULT '',  `e_name` varchar(20)NOTNULL DEFAULT '',  `e_birth` varchar(20)NOTNULL DEFAULT '',  `e_sex` varchar(10)NOTNULL DEFAULT '',  PRIMARY KEY (`e_id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;
  1. 执行以下命令迁移数据。
 sqoop export--connect jdbc:mysql://localhost:3306/sqoop_migrate  --username'userName'--password'userPW'--num-mappers1--table employee  --columns"e_id,e_name,e_birth,e_sex"--export-dir'/sqoop2mysql/table/mysqltest.txt'--fields-terminated-by','

迁移命令格式:sqoop export --connect jdbc:mysql:/// --username  --password  --table  --export-dir

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hdfs-dir

存放待迁移数据的文件存储HDFS目录。


  1. 验证迁移结果。

执行select * from employee;命令查看表数据。

如果表中有如下数据,则表示迁移成功。


将MySQL的数据迁移到文件存储HDFS

在集群Sqoop节点上,使用sqoop import命令将MySQL中的数据迁移到文件存储HDFS上。

此处以迁移MySQL中的employee表为例,employee表中已写入如下数据。


  1. 执行以下命令迁移数据。
sqoop import --connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'userPW'--table employee  --target-dir /mysql2sqoop/table/sqoop_migrate  --num-mappers1--columns"e_id,e_name,e_birth,e_sex"--direct

命令格式:sqoop import --connect jdbc:mysql:/// --username  --password  --table  --check-column  --incremental  --last-value  --target-dir

参数说明如下所示,更多详情请参见Sqoop Import

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

col

迁移表中列的名称。

mode

该模式决定Sqoop如何定义哪些行为新的行。取值:append或lastmodified。

value

前一个导入中检查列的最大值。

hdfs-dir

文件存储HDFS的写入目录。


  1. 检查迁移结果。
  1. 执行hadoop fs -ls /mysql2sqoop/table/sqoop_migrate命令,获取迁移文件。

       b. 执行hadoop fs -cat /mysql2sqoop/table/sqoop_migrate/part-m-00000命令查看文件中的内容。


将MySQL的数据迁移到Hive上

在集群Sqoop节点上使用sqoop import命令可以将MySQL上的数据迁移到Hive上。

此处以迁移MySQL中的employee表为例,employee表中已写入如下数据。


  1. 执行以下命令迁移数据。
sqoop import --connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'PW'--table employee   --hive-import--hive-database default  --create-hive-table--hive-overwrite-m1

迁移命令格式:sqoop import --connect jdbc:mysql:/// --username  --password  --table  --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --target-dir  --hive-table

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hdfs-dir

文件存储HDFS的写入目录。

hive-tablename

对应的Hive中的表名。

  1. 验证迁移结果。

执行select * from default.employee;命令查看表数据,如果表中有如下数据,则表示迁移成功。


将Hive的数据迁移到MySQL上

将Hive的数据迁移到MySQL上,需要先在MySQL上创建好对应Hive数据结构的表,然后在集群Sqoop节点上使用sqoop export命令进行迁移。

此处以迁移Hive上default.employee表中的数据为例,该表中已写入如下数据。


  1. 在MySQL上的sqoop_migrate库中创建好要导入的表。
use sqoop_migrate;CREATETABLE `employee_from_hive`(  `id` VARCHAR(20),  `name` VARCHAR(20)NOTNULL DEFAULT '',  `birth` VARCHAR(20)NOTNULL DEFAULT '',  `sex` VARCHAR(10)NOTNULL DEFAULT '',  PRIMARY KEY(`id`));


  1. 执行DESCRIBE FORMATTED default.employee;命令查看表信息。


  1. 执行以下命令迁移数据。
sqoop export--connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'userPW'--table employee_from_hive -m1--fields-terminated-by'\0001'--export-dir /user/hive/warehouse/employee

迁移命令格式:sqoop export --connect jdbc:mysql:/// --username  --password  --table  --export-dir  --fields-terminated-by

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hive-dir

存放待迁移数据的文件存储HDFS目录。

Splitter

Hive表数据使用的分隔符。


  1. 验证迁移结果。

执行select * from sqoop_migrate.employee_from_hive;命令查看表数据。

如果表中有如下数据,则表示迁移成功。


了解更多关于文件存储HDFS版的产品信息,欢迎访问https://www.aliyun.com/product/alidfs

如果您对文件存储HDFS版有任何问题,欢迎钉钉扫描以下二维码加入文件存储HDFS版技术交流群。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
目录
相关文章
|
8天前
|
缓存 关系型数据库 BI
使用MYSQL Report分析数据库性能(下)
使用MYSQL Report分析数据库性能
39 3
|
2天前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS费用价格:MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准
阿里云RDS数据库支持MySQL、SQL Server、PostgreSQL、MariaDB,多种引擎优惠上线!MySQL倚天版88元/年,SQL Server 2核4G仅299元/年,PostgreSQL 227元/年起。高可用、可弹性伸缩,安全稳定。详情见官网活动页。
|
3天前
|
关系型数据库 分布式数据库 数据库
阿里云数据库收费价格:MySQL、PostgreSQL、SQL Server和MariaDB引擎费用整理
阿里云数据库提供多种类型,包括关系型与NoSQL,主流如PolarDB、RDS MySQL/PostgreSQL、Redis等。价格低至21元/月起,支持按需付费与优惠套餐,适用于各类应用场景。
|
2天前
|
SQL 关系型数据库 MySQL
Mysql数据恢复—Mysql数据库delete删除后数据恢复案例
本地服务器,操作系统为windows server。服务器上部署mysql单实例,innodb引擎,独立表空间。未进行数据库备份,未开启binlog。 人为误操作使用Delete命令删除数据时未添加where子句,导致全表数据被删除。删除后未对该表进行任何操作。需要恢复误删除的数据。 在本案例中的mysql数据库未进行备份,也未开启binlog日志,无法直接还原数据库。
|
8天前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS支持MySQL、SQL Server、PostgreSQL和MariaDB引擎
阿里云数据库RDS支持MySQL、SQL Server、PostgreSQL和MariaDB引擎,提供高性价比、稳定安全的云数据库服务,适用于多种行业与业务场景。
|
23天前
|
安全 关系型数据库 MySQL
MySQL安全最佳实践:保护你的数据库
本文深入探讨了MySQL数据库的安全防护体系,涵盖认证安全、访问控制、网络安全、数据加密、审计监控、备份恢复、操作系统安全、应急响应等多个方面。通过具体配置示例,为企业提供了一套全面的安全实践方案,帮助强化数据库安全,防止数据泄露和未授权访问,保障企业数据资产安全。
|
14天前
|
关系型数据库 MySQL 数据库
自建数据库如何迁移至RDS MySQL实例
数据库迁移是一项复杂且耗时的工程,需考虑数据安全、完整性及业务中断影响。使用阿里云数据传输服务DTS,可快速、平滑完成迁移任务,将应用停机时间降至分钟级。您还可通过全量备份自建数据库并恢复至RDS MySQL实例,实现间接迁移上云。
|
1月前
|
存储 运维 关系型数据库
从MySQL到云数据库,数据库迁移真的有必要吗?
本文探讨了企业在业务增长背景下,是否应从 MySQL 迁移至云数据库的决策问题。分析了 MySQL 的优势与瓶颈,对比了云数据库在存储计算分离、自动化运维、多负载支持等方面的优势,并提出判断迁移必要性的五个关键问题及实施路径,帮助企业理性决策并落地迁移方案。
|
8天前
|
Ubuntu 安全 关系型数据库
安装与配置MySQL 8 on Ubuntu,包括权限授予、数据库备份及远程连接指南
以上步骤提供了在Ubuntu上从头开始设置、配置、授权、备份及恢复一个基础但完整的MySQL环境所需知识点。
145 7
|
8天前
|
缓存 监控 关系型数据库
使用MYSQL Report分析数据库性能(上)
最终建议:当前系统是完美的读密集型负载模型,优化重点应放在减少行读取量和提高数据定位效率。通过索引优化、分区策略和内存缓存,预期可降低30%的CPU负载,同时保持100%的缓冲池命中率。建议每百万次查询后刷新统计信息以持续优化
51 6

推荐镜像

更多