四十、centos安装sqoop（使用Sqoop完成MySQL和HDFS之间的数据互导）-阿里云开发者社区

四十、centos安装sqoop（使用Sqoop完成MySQL和HDFS之间的数据互导）

2022-05-28 348

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 RDS MySQL，集群系列 2核4GB

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS MySQL，高可用系列 2核4GB

简介： 四十、centos安装sqoop（使用Sqoop完成MySQL和HDFS之间的数据互导）

环境准备：

centos 7

centos 可以上网

hadoop，Hbase，Hive，Zookeeper正常运行

环境搭建：

版本：

sqoop1.4.7-hadoop2.6.0

一、Sqoop安装

1、直接在虚拟机浏览器下载sqoop1.4.7

https://archive.apache.org/dist/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

2、解压安装包

3、重命名为Sqoop

mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop

4、配置sqoop-env.sh

(1)复制配置文件并重命名为sqoop-env.sh

cat sqoop-env-template.sh >> sqoop-env.sh

(2)修改配置文件

编辑sqoop-env.sh文件，分别将Hadoop、HBase、Hive、ZooKeeper的安装目录添加到文件中。

5、配置环境变量

vim /etc/profile

使环境变量立即生效：

source /etc/profile

6、配置MySQL连接

（1）添加MySQL的JAR包到Sqoop安装目录中。

（2）测试Sqoop与MySQL之间的连接

A、启动MySQL服务：

B、测试Sqoop与MySQL之间的连接是否成功：

sqoop list-databases --connect jdbc:mysql://localhost:3306 --username root -password dang

注：如果可以看到MySQL数据库中的数据库列表，则表示Sqoop安装成功

centos安装Sqoop完成

Sqoop的使用：

二、使用Sqoop完成MySQL和HDFS之间的数据互导

1、上传准备好的测试数据到MySQL中

（1）登录MySQL：

（2）创建测试数据库

（3）创建表test1，用于存放本地测试数据

create table test1(
     ip varchar(100) not null,
     time varchar(100) not null,
     url varchar(100) not null);

（4）新建测试数据文件

写入：

注意：此 txt 文件字段之间需要用Tab键隔开，空格是不可行的，遇到datatime日期的，年月日，时分秒之间需用空格隔开，不需要添加引号

（5）将本地的测试数据上传到test1表中

load data local infile "/opt/linshi/test.txt" into table test1(ip,time,url);

（6）上传完成后，查看test1表中的数据：

select * from test1;

select * from test1;

2、上传数据到HDFS中

（1）启动hadoop集群

（2）将test1中的数据上传到HDFS中：

./sqoop import --connect jdbc:mysql://localhost:3306/test --username root --password dang --table test1 -m 1

（3）查看导入的数据

hdfs dfs -cat /user/root/test1/part-m-00000

（4）登录HDFS网页查看

HDFS的web端：localhost:50070

（5）将HDFS数据导入MySQL中

注：在导出前需要先创建导出表的结构，如果导出的表在数据表中不存在，则系统会报错；若重复导出数据，则表中的数据会重复

A、在test数据库中创建表test2，可以直接复制表test1的结构：

create table test2 as select * from test1 where 1=2;

B、查看表test1，表test2：

C、使用sqoop将HDFS中的数据导入MySQL的test2中：

sqoop export --connect jdbc:mysql://192.168.231.105:3306/test --username root --password dang --table test2 --export-dir /user/root/test1/part-m-00000 -m 1

注：localhost最好写成本机地址，之前写的localhost报错了

（6）再次查看test2表：

HDFS的数据成功导入test2

一条华丽的分割线

centos安装sqoop（使用Sqoop完成MySQL和HDFS之间的数据互导）案例完成

其他环境搭建参见：

Hadoop伪分布式的搭建详情

https://blog.csdn.net/m0_54925305/article/details/118650350?spm=1001.2014.3001.5502

Hadoop完全分布式的搭建详情

https://blog.csdn.net/m0_54925305/article/details/118851554?spm=1001.2014.3001.5502

Zookeeper集群的搭建（单机、伪分布式、集群）

https://blog.csdn.net/m0_54925305/article/details/119059186?spm=1001.2014.3001.5502

Spark的安装与部署详情（Local模式，Standalone模式，Spank on YARN模式）

https://blog.csdn.net/m0_54925305/article/details/119005751?spm=1001.2014.3001.5502

HadoopHA环境搭建（保姆篇，手把手搭建）

https://blog.csdn.net/m0_54925305/article/details/119838463?spm=1001.2014.3001.5502

hbase集群的搭建（HBase Shell）

https://blog.csdn.net/m0_54925305/article/details/120787788?spm=1001.2014.3001.5502

Centos安装mysql(rpm终结版)

https://blog.csdn.net/m0_54925305/article/details/120476116?spm=1001.2014.3001.5502

centos安装hive3.1.2（精讲篇）

https://blog.csdn.net/m0_54925305/article/details/120554242?spm=1001.2014.3001.5502

Centos安装yum,wegt(完全配置篇)

https://blog.csdn.net/m0_54925305/article/details/120467143?spm=1001.2014.3001.5502

四十、centos安装sqoop（使用Sqoop完成MySQL和HDFS之间的数据互导）

环境准备：

环境搭建：

一、Sqoop安装

二、使用Sqoop完成MySQL和HDFS之间的数据互导

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

四十、centos安装sqoop（使用Sqoop完成MySQL和HDFS之间的数据互导）

环境准备：

环境搭建：

一、Sqoop安装

二、使用Sqoop完成MySQL和HDFS之间的数据互导

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像