文件存储HDFS版和数据库MySQL双向数据迁移

本文涉及的产品
对象存储 OSS,20GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
云备份 Cloud Backup,100GB 3个月
简介: 本文档介绍如何使用Sqoop工具实现文件存储HDFS版和关系型数据库MySQL之间的双向数据迁移。

背景信息

Sqoop是一款开源的工具,主要用于在Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据 。既可以将一个关系型数据库(MySQL 、Oracle 、Postgres等)中的数据导入HDFS中,也可以将HDFS的数据导入到关系型数据库中。


准备工作

  1. 开通文件存储HDFS版服务并创建文件系统实例和挂载点,详情请参见:快速入门
  2. 搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.2,本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。
  3. 在Hadoop集群所有节点上安装JDK。本操作要求JDK版本不低于1.8。
  4. 在Hadoop集群中配置文件存储HDFS实例,详情请参见:挂载文件系统


安装Sqoop

现在Sqoop分为Sqoop1和Sqoop2,两个版本并不兼容。本案例选择使用Sqoop1的稳定版本Sqoop 1.4.7

  1. 下载Sqoop 1.4.7 版本
  2. 解压安装包。
tar -zxf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/local/
  1. 配置环境变量。
  1. 执行vim /etc/profile命令,打开配置文件,添加如下内容。
exportSQOOP_HOME=/usr/local/sqoop-1.4.7.bin__hadoop-2.6.0
exportPATH=$PATH:$SQOOP_HOME/bin

        b. 执行source /etc/profile命令,使配置生效。


  1. 添加数据库驱动。
# 下载wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.48.tar.gz
# 解压tar -zxf mysql-connector-java-5.1.48.tar.gz
# 将MySQL链接包复制到Sqoop安装目录的lib目录下cp ./mysql-connector-java-5.1.48/mysql-connector-java-5.1.48.jar ${SQOOP_HOME}/lib/
  1. 修改配置文件。
  1. 复制sqoop-env-template.sh,并命名为sqoop-env.sh
cp${SQOOP_HOME}/conf/sqoop-env-template.sh ${SQOOP_HOME}/conf/sqoop-env.sh

  b. 执行vim ${SQOOP_HOME}/conf/sqoop-env.sh命令打开配置文件,添加如下内容。

exportHADOOP_COMMON_HOME=/usr/local/hadoop-2.8.5
exportHADOOP_MAPRED_HOME=$HADOOP_COMMON_HOMEexportHIVE_HOME=/usr/local/apache-hive-2.3.9-bin   #若没有安装hive可不必添加此配置

   c. 执行cp ${HIVE_HOME}/lib/hive-common-2.3.9.jar ${SQOOP_HOME}/lib/命令复制文件。


  1. 执行如下命令验证数据库是否连接成功。
sqoop list-databases --connect jdbc:mysql://<dburi> --username'username'--password'password'

如果回显信息中显示MySQL数据库的名称,则表示连接成功。


参数

说明

dburi

数据库的访问连接,例如: jdbc:mysql://localhost:3306/。

username

数据库登录用户名。

password

用户密码。


验证

将文件存储HDFS的数据迁移到MySQL上

将文件存储HDFS的数据迁移到MySQL上,需要先在MySQL上创建好对应数据结构的表,然后在集群Sqoop节点上使用sqoop export命令进行迁移。


此处以迁移文件存储HDFS/sqoop2mysql/table/mysqltest.txt中的数据为例,mysqltest.txt中已写入如下数据。

6,测试用户6,2019-08-10,男
7,测试用户7,2019-08-11,男
8,测试用户8,2019-08-12,男
9,测试用户9,2019-08-13,女
10,测试用户10,2019-08-14,女
  1. 创建MySQL数据库。
create database sqoop_migrate;
  1. 创建表。
use sqoop_migrate;CREATETABLE `employee` (  `e_id` varchar(20)NOTNULL DEFAULT '',  `e_name` varchar(20)NOTNULL DEFAULT '',  `e_birth` varchar(20)NOTNULL DEFAULT '',  `e_sex` varchar(10)NOTNULL DEFAULT '',  PRIMARY KEY (`e_id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;
  1. 执行以下命令迁移数据。
 sqoop export--connect jdbc:mysql://localhost:3306/sqoop_migrate  --username'userName'--password'userPW'--num-mappers1--table employee  --columns"e_id,e_name,e_birth,e_sex"--export-dir'/sqoop2mysql/table/mysqltest.txt'--fields-terminated-by','

迁移命令格式:sqoop export --connect jdbc:mysql:/// --username  --password  --table  --export-dir

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hdfs-dir

存放待迁移数据的文件存储HDFS目录。


  1. 验证迁移结果。

执行select * from employee;命令查看表数据。

如果表中有如下数据,则表示迁移成功。


将MySQL的数据迁移到文件存储HDFS

在集群Sqoop节点上,使用sqoop import命令将MySQL中的数据迁移到文件存储HDFS上。

此处以迁移MySQL中的employee表为例,employee表中已写入如下数据。


  1. 执行以下命令迁移数据。
sqoop import --connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'userPW'--table employee  --target-dir /mysql2sqoop/table/sqoop_migrate  --num-mappers1--columns"e_id,e_name,e_birth,e_sex"--direct

命令格式:sqoop import --connect jdbc:mysql:/// --username  --password  --table  --check-column  --incremental  --last-value  --target-dir

参数说明如下所示,更多详情请参见Sqoop Import

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

col

迁移表中列的名称。

mode

该模式决定Sqoop如何定义哪些行为新的行。取值:append或lastmodified。

value

前一个导入中检查列的最大值。

hdfs-dir

文件存储HDFS的写入目录。


  1. 检查迁移结果。
  1. 执行hadoop fs -ls /mysql2sqoop/table/sqoop_migrate命令,获取迁移文件。

       b. 执行hadoop fs -cat /mysql2sqoop/table/sqoop_migrate/part-m-00000命令查看文件中的内容。


将MySQL的数据迁移到Hive上

在集群Sqoop节点上使用sqoop import命令可以将MySQL上的数据迁移到Hive上。

此处以迁移MySQL中的employee表为例,employee表中已写入如下数据。


  1. 执行以下命令迁移数据。
sqoop import --connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'PW'--table employee   --hive-import--hive-database default  --create-hive-table--hive-overwrite-m1

迁移命令格式:sqoop import --connect jdbc:mysql:/// --username  --password  --table  --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --target-dir  --hive-table

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hdfs-dir

文件存储HDFS的写入目录。

hive-tablename

对应的Hive中的表名。

  1. 验证迁移结果。

执行select * from default.employee;命令查看表数据,如果表中有如下数据,则表示迁移成功。


将Hive的数据迁移到MySQL上

将Hive的数据迁移到MySQL上,需要先在MySQL上创建好对应Hive数据结构的表,然后在集群Sqoop节点上使用sqoop export命令进行迁移。

此处以迁移Hive上default.employee表中的数据为例,该表中已写入如下数据。


  1. 在MySQL上的sqoop_migrate库中创建好要导入的表。
use sqoop_migrate;CREATETABLE `employee_from_hive`(  `id` VARCHAR(20),  `name` VARCHAR(20)NOTNULL DEFAULT '',  `birth` VARCHAR(20)NOTNULL DEFAULT '',  `sex` VARCHAR(10)NOTNULL DEFAULT '',  PRIMARY KEY(`id`));


  1. 执行DESCRIBE FORMATTED default.employee;命令查看表信息。


  1. 执行以下命令迁移数据。
sqoop export--connect jdbc:mysql://localhost:3306/sqoop_migrate --username'userid'--password'userPW'--table employee_from_hive -m1--fields-terminated-by'\0001'--export-dir /user/hive/warehouse/employee

迁移命令格式:sqoop export --connect jdbc:mysql:/// --username  --password  --table  --export-dir  --fields-terminated-by

参数

说明

dburi

数据库的访问连接。例如:jdbc:mysql://localhost:3306/ 。

如果您的访问连接中含有参数,则请加上单引号,例如: 'jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=UTF-8'。

dbname

数据库的名字,例如:user。

username

数据库登录用户名。

password

用户密码。

tablename

MySQL数据库中表的名称。

hive-dir

存放待迁移数据的文件存储HDFS目录。

Splitter

Hive表数据使用的分隔符。


  1. 验证迁移结果。

执行select * from sqoop_migrate.employee_from_hive;命令查看表数据。

如果表中有如下数据,则表示迁移成功。


了解更多关于文件存储HDFS版的产品信息,欢迎访问https://www.aliyun.com/product/alidfs

如果您对文件存储HDFS版有任何问题,欢迎钉钉扫描以下二维码加入文件存储HDFS版技术交流群。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
1天前
|
消息中间件 关系型数据库 MySQL
ClickHouse如何整合数据源:MySQL、HDFS...
ClickHouse 是一个强大的列式数据库管理系统,支持多种数据源。常见的数据源包括外部数据源(如 HDFS、File、URL、Kafka 和 RabbitMQ)、数据库(如 MySQL 和 PostgreSQL)和流式数据(如 Stream 和 Materialized Views)。本文介绍了如何从 MySQL 和 HDFS 读取数据到 ClickHouse 中,包括创建数据库、映射表和查询数据的具体步骤。通过这些方法,用户可以方便地将不同来源的数据导入 ClickHouse 进行高效存储和分析。
11 3
|
12天前
|
关系型数据库 MySQL 数据库
Python处理数据库:MySQL与SQLite详解 | python小知识
本文详细介绍了如何使用Python操作MySQL和SQLite数据库,包括安装必要的库、连接数据库、执行增删改查等基本操作,适合初学者快速上手。
81 15
|
6天前
|
SQL 关系型数据库 MySQL
数据库数据恢复—Mysql数据库表记录丢失的数据恢复方案
Mysql数据库故障: Mysql数据库表记录丢失。 Mysql数据库故障表现: 1、Mysql数据库表中无任何数据或只有部分数据。 2、客户端无法查询到完整的信息。
|
13天前
|
关系型数据库 MySQL 数据库
数据库数据恢复—MYSQL数据库文件损坏的数据恢复案例
mysql数据库文件ibdata1、MYI、MYD损坏。 故障表现:1、数据库无法进行查询等操作;2、使用mysqlcheck和myisamchk无法修复数据库。
|
17天前
|
SQL 关系型数据库 MySQL
MySQL导入.sql文件后数据库乱码问题
本文分析了导入.sql文件后数据库备注出现乱码的原因,包括字符集不匹配、备注内容编码问题及MySQL版本或配置问题,并提供了详细的解决步骤,如检查和统一字符集设置、修改客户端连接方式、检查MySQL配置等,确保导入过程顺利。
|
25天前
|
关系型数据库 MySQL 数据库
GBase 数据库如何像MYSQL一样存放多行数据
GBase 数据库如何像MYSQL一样存放多行数据
|
1月前
|
SQL 关系型数据库 MySQL
12 PHP配置数据库MySQL
路老师分享了PHP操作MySQL数据库的方法,包括安装并连接MySQL服务器、选择数据库、执行SQL语句(如插入、更新、删除和查询),以及将结果集返回到数组。通过具体示例代码,详细介绍了每一步的操作流程,帮助读者快速入门PHP与MySQL的交互。
39 1
|
1月前
|
SQL 关系型数据库 MySQL
go语言数据库中mysql驱动安装
【11月更文挑战第2天】
52 4
|
1月前
|
监控 关系型数据库 MySQL
数据库优化:MySQL索引策略与查询性能调优实战
【10月更文挑战第27天】本文深入探讨了MySQL的索引策略和查询性能调优技巧。通过介绍B-Tree索引、哈希索引和全文索引等不同类型,以及如何创建和维护索引,结合实战案例分析查询执行计划,帮助读者掌握提升查询性能的方法。定期优化索引和调整查询语句是提高数据库性能的关键。
248 1
|
1月前
|
运维 关系型数据库 MySQL
安装MySQL8数据库
本文介绍了MySQL的不同版本及其特点,并详细描述了如何通过Yum源安装MySQL 8.4社区版,包括配置Yum源、安装MySQL、启动服务、设置开机自启动、修改root用户密码以及设置远程登录等步骤。最后还提供了测试连接的方法。适用于初学者和运维人员。
174 0

推荐镜像

更多
下一篇
DataWorks