hadoop插件sqoop使用案例

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介:

sqoop是hadoop项目中一个插件,可以把分布式文件系统hdfs中内容导入到mysql指定表里面,也可以把mysql中内容导入到hdfs文件系统中进行后续操作。


测试环境说明:

hadoop版本:hadoop-0.20.2

sqoop版本:sqoop-1.2.0-CDH3B4

java版本:jdk1.7.0_67

mysql版本:5.1.65


特别说明:

因为我安装的是hadoop-0.20.2版本,sqoop不支持这个版本,但是可以使用CDH3版本的hadoop,也可以通过copy相关文件,达到目的。

下载链接:

http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz

http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz


sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。

另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中


一 sqoop基本配置:

1)profile环境变量说明:

1
2
3
4
5
6
7
8
9
10
11
export  JAVA_HOME= /usr/local/jdk1 .7.0_67/
export  JRE_HOME= /usr/local/jdk1 .7.0_67 /jre
export  CLASSPATH=.:$JAVA_HOME /lib :$JAVA_HOME /lib/dt .jar:$JAVA_HOME /lib/tools .jar:$CLASSPATH
export  PIG_HOME= /usr/local/pig-0 .9.2
#告诉pig客户端,本机hadoop配置文件在什么地方
export  PIG_CLASSPATH= /usr/local/hadoop-0 .20.2 /conf
export  HBASE_HOME= /usr/local/hbase-0 .90.5
export  HADOOP_HOME= /usr/local/hadoop-0 .20.2
export  SQOOP_HOME= /usr/local/sqoop-1 .2.0-CDH3B4
export  HIVE_HOME= /usr/local/hive-0 .8.1
export  PATH=$JAVA_HOME /bin :$PATH: /usr/local/bin :$HADOOP_HOME /bin :$HBASE_HOME /bin :$PIG_HOME /bin :$PIG_CLASSPATHi:$HIVE_HOME /bin :$SQOOP_HOME /bin :$PATH

2)由于本测试案例不需要sqoop检查到hbase和zookeeper环境变量,所以要做一***释:

编辑文件/usr/local/sqoop-1.2.0-CDH3B4/bin/configure-sqoop,修改一下行,增加在注释:

1
2
3
4
5
6
7
8
9
10
#if [ ! -d "${HBASE_HOME}" ];then
#  echo "Error: $HBASE_HOME does not exist!"
#  echo 'Please set $HBASE_HOME to the root of your HBase installation.'
#  exit 1
#fi
#if [ ! -d "${ZOOKEEPER_HOME}" ]; then
#  echo "Error: $ZOOKEEPER_HOME does not exist!"
#  echo 'Please set $ZOOKEEPER_HOME to the root of your ZooKeeperinstallation.'
#  exit 1
#fi


3)创建sqoop库,平且授权:

mysql> GRANT ALL PRIVILEGES ON sqoop.* TO 'sqoop'@'172.16.41.%' identified by 'routon' with grant option;

mysql> flush privileges;


4)创建students表,并且插入数据:

mysql> create table students (id int not null primary key, name varchar(20), age int);


插入测试数据:

1
2
3
4
5
insert into studentsvalues( '001' , 'abc' ,29);
insert into students values( '002' , 'def' ,28);
insert into students values( '003' , 'aaaa' ,26);
insert into students values( '004' , 'efsaz' ,60);
insert into students values( '005' , 'kiass' ,63);

表中数据为:

mysql> select * from students; 

+----+-------+------+

| id | name  | age  |

+----+-------+------+

|  2 | def   |   28 |

|  3 | aaaa  |   26 |

|  4 | efsaz |   60 |

|  5 | kiass |   63 |

+----+-------+------+

4 rows in set (0.00 sec)


5)在master设备node1节点上测试sqoop能否成功连接远程主机node29上的mysql,如何出现mysql库中创建的表,就说明已经连接成功了。

wKioL1RHa16gTePuAAFl12i8EMM960.jpg

如图所示,通过sqoop,可以查看远端测试mysql数据库中students表;


6)将mysql数据库中数据导入到hdfs文件系统中:


wKioL1RHa-WRNxzFAAjyO64ZK_U536.jpg在hdfs文件系统中查看是否已经导入成功:

wKiom1RHa-iw-z6ZAAGonEYmHME428.jpg


wKioL1RHbIPD5PagAAH0w3gK8ig189.jpg


说明mysql中国内容,已经导入到分布式文件系统中!


7)hdfs文件系统中文件导入到mysql

说明:数据导入前,先清空students表中数据,使用命令:delete from students;


在master服务器上执行sqoop命令,将hdfs文件内容,导入到mysql数据中students表内!

wKioL1RHbbmR4BjTAAil9nd-y-w858.jpg



查看mysql表:

mysql> select * from students; 

+----+-------+------+

| id | name  | age  |

+----+-------+------+

|  2 | def   |   28 |

|  3 | aaaa  |   26 |

|  4 | efsaz |   60 |

|  5 | kiass |   63 |

+----+-------+------+

4 rows in set (0.00 sec)



测试完成!



本文转自 shine_forever 51CTO博客,原文链接:http://blog.51cto.com/shineforever/1566788

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
109 3
|
3月前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
61 2
|
4月前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
98 3
|
8月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
349 2
|
3月前
|
SQL 关系型数据库 MySQL
Hadoop-25 Sqoop迁移 增量数据导入 CDC 变化数据捕获 差量同步数据 触发器 快照 日志
Hadoop-25 Sqoop迁移 增量数据导入 CDC 变化数据捕获 差量同步数据 触发器 快照 日志
53 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
118 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
55 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
71 0
|
8月前
|
SQL 关系型数据库 MySQL
Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
【2月更文挑战第9天】Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理(一篇即可学会在日常工作中使用Sqoop)
313 7
|
5月前
|
机器学习/深度学习 存储 分布式计算
Hadoop与机器学习的融合:案例研究
【8月更文第28天】随着大数据技术的发展,Hadoop已经成为处理大规模数据集的重要工具。同时,机器学习作为一种数据分析方法,在各个领域都有着广泛的应用。本文将介绍如何利用Hadoop处理大规模数据集,并结合机器学习算法来挖掘有价值的信息。我们将通过一个具体的案例研究——基于用户行为数据预测用户留存率——来展开讨论。
361 0