大数据技术之Sqoop1

2023-06-12 202

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS MySQL，高可用系列 2核4GB

云原生数据库 PolarDB MySQL 版，通用型 2核8GB 50GB

简介： 大数据技术之Sqoop

第1章 Sqoop简介

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。

Sqoop2的最新版本是1.99.7。请注意，2与1不兼容，且特征不完整，它并不打算用于生产部署。

第2章Sqoop原理

将导入或导出命令翻译成mapreduce程序来实现。

在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

第3章Sqoop安装

安装Sqoop的前提是已经具备Java和Hadoop的环境。

3.1 下载并解压

1) 下载地址：http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/

2) 上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中

3) 解压sqoop安装包到指定目录，如：

$ tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/

3.2 修改配置文件

Sqoop的配置文件与大多数大数据框架类似，在sqoop根目录下的conf目录中。

1) 重命名配置文件

$ mv sqoop-env-template.sh sqoop-env.sh

2) 修改配置文件

sqoop-env.sh

export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2
export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2
export HIVE_HOME=/opt/module/hive
export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10
export ZOOCFGDIR=/opt/module/zookeeper-3.4.10
export HBASE_HOME=/opt/module/hbase

3.3 拷贝JDBC驱动

拷贝jdbc驱动到sqoop的lib目录下，如：

$ cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/

3.4 验证Sqoop

我们可以通过某一个command来验证sqoop配置是否正确：

$ bin/sqoop help

出现一些Warning警告（警告信息已省略），并伴随着帮助命令的输出：

Available commands:
  codegen            Generate code to interact with database records
  create-hive-table     Import a table definition into Hive
  eval               Evaluate a SQL statement and display the results
  export             Export an HDFS directory to a database table
  help               List available commands
  import             Import a table from a database to HDFS
  import-all-tables     Import tables from a database to HDFS
  import-mainframe    Import datasets from a mainframe server to HDFS
  job                Work with saved jobs
  list-databases        List available databases on a server
  list-tables           List available tables in a database
  merge              Merge results of incremental imports
  metastore           Run a standalone Sqoop metastore
  version            Display version information

3.5 测试Sqoop是否能够成功连接数据库

$ bin/sqoop list-databases --connect jdbc:mysql://hadoop102:3306/ --username root --password 000000

出现如下输出：

information_schema
metastore
mysql
oozie
performance_schema

第4章Sqoop的简单使用案例

4.1 导入数据

在Sqoop中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE，HBASE）中传输数据，叫做：导入，即使用import关键字。

4.1.1 RDBMS到HDFS

1) 确定Mysql服务开启正常

2) 在Mysql中新建一张表并插入一些数据

$ mysql -uroot -p000000
mysql> create database company;
mysql> create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));
mysql> insert into company.staff(name, sex) values('Thomas', 'Male');
mysql> insert into company.staff(name, sex) values('Catalina', 'FeMale');

3) 导入数据

（1）全部导入

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"

骚戴理解：全部导入就是关系型数据库整个表导入到hdfs中，上面每一行尾\是用来换行的，如果没有这个按回车就会当做命令执行，上面的主要分为两大块，第一块是mysql的配置，第二块是hdfs的配置，其中delete-target-dir的意思是如果有target-dir配置的目录就删除这个目录，这个慎用！fields-terminated-by指定分隔符。

--num-mappers 是在使用 Hadoop MapReduce 进行数据处理时的一个参数，它表示要启动几个 Map 任务来处理输入数据。具体来说，--num-mappers 参数用于指定 MapReduce 作业中 Mapper 的数量。这个参数的设置会影响作业的并行度和运行时间。通常情况下，建议将该参数设置为输入文的总大小除以 Hadoop 集群中可用的计算资源数量，以实现最优的并行处理效果。

（2）查询导入

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query 'select name,sex from staff where id <=1 and $CONDITIONS;'

骚戴理解：注意上面最后一句where后面拼接了and $CONDITIONS，必须要拼接and $CONDITIONS;不然会报错：must contain '$CONDITIONS' in WHERE clause.

sqoop的查询导入为什么要 $CONDITIONS？

$CONDITIONS是一个占位符，在使用Sqoop进行查询导入时，可以使用 $CONDITIONS 来指定查询的条件。这个参数的作用是动态地生成一个 WHERE 子句，并将其添加到 SELECT 语句中。

$CONDITIONS 可以让我们在每次调用 Sqoop 命令时传递不同的查询条件，而不必修改 Sqoop 命令本身。这种灵活性使得在数据源发生变化时能够轻松地更新导入命令。

例如，假设我们希望从数据库中导入销售额大于 1000 的数据。使用 $CONDITIONS 就可以很容易地实现这一点，只需在 Sqoop 命令中指定 --where 参数并设置为 "$CONDITIONS AND sales > 1000" 即可。每次运行 Sqoop 命令时，$CONDITIONS 将被替换为适当的查询条件，从而过滤出我们需要的数据。

如果query后使用的是双引号，则$CONDITIONS前必须加转移符，防止shell识别为自己的变量。

（3）导入指定列

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--columns id,sex \
--table staff

提示：columns中如果涉及到多列，用逗号分隔，分隔时不要添加空格

（4）使用sqoop关键字筛选查询导入数据

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--table staff \
--where "id=1"

骚戴理解：这个跟上面查询导入的--query 'select name,sex from staff where id <=1 and $CONDITIONS;'的区别就是查询导入可以指定字段和条件，而这个where只能指定条件，但是可以和

--columns一起使用，注意--query和--where不能一起使用！

4.1.2 RDBMS到Hive

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--num-mappers 1 \
--hive-import \
--fields-terminated-by "\t" \
--hive-overwrite \
--hive-table staff_hive

骚戴理解：该过程分为两步，第一步将数据导入到HDFS，第二步将导入到HDFS的数据迁移到Hive仓库，第一步默认的临时目录是/user/atguigu/表名，如果hive中没有--hive-table参数指定的表就会自动新建一个

--hive-overwrite 是在使用 Apache Hive 进行数据导入时的一个参数，它表示当向 Hive 表中导入数据时，如果表中已经存在同名的数据，是否覆盖已有数据。具体来说，--hive-overwrite 参数用于指定将新数据覆盖原有数据的方式进行数据导入。如果不使用该参数，则默认是将新数据追加到原有数据之后。

4.1.3 RDBMS到Hbase

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table company \
--columns "id,name,sex" \
--column-family "info" \
--hbase-create-table \
--hbase-row-key "id" \
--hbase-table "hbase_company" \
--num-mappers 1 \
--split-by id

骚戴理解：sqoop的--split-by用于指定一个列作为数据分割的依据，将大型数据集拆分成多个小块进行并行处理。这有助于提高数据传输和导入的效率。--hbase-create-table参数指的如果hbase没有表就自动创建hbase中的表，但是由于版本不兼容，会报错（sqoop1.4.6只支持HBase1.0.1之前的版本的自动创建HBase表的功能）

解决方案：手动创建HBase表

hbase> create 'hbase_company,'info'

在HBase中scan这张表得到如下内容

hbase> scan ‘hbase_company’

4.2、导出数据

在Sqoop中，“导出”概念指：从大数据集群（HDFS，HIVE，HBASE）向非大数据集群（RDBMS）中传输数据，叫做：导出，即使用export关键字。

4.2.1 HIVE/HDFS到RDBMS

$ bin/sqoop export \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--num-mappers 1 \
--export-dir /user/hive/warehouse/staff_hive \
--input-fields-terminated-by "\t"

骚戴理解：sqoop的--export-dir参数用于将数据从Hadoop分布式文件系统（如HDFS）导出到关系型数据库中。它指定了包含要导出数据的HDFS目录路径。sqoop的--input-fields-terminated-by参数用于指定输入数据文件中字段之间的分隔符。它可以是一个字符或一个字符串，并且默认为逗号“，”。这个参数在导入数据时非常有用，因为它告诉sqoop如何解析源数据文件。Mysql中如果表不存在，不会自动创建

4.3 脚本打包

使用opt格式的文件打包sqoop命令，然后执行

1) 创建一个.opt文件

$ mkdir opt
$ touch opt/job_HDFS2RDBMS.opt

2) 编写sqoop脚本

$ vi opt/job_HDFS2RDBMS.opt
export
--connect jdbc:mysql://hadoop102:3306/company
--username root
--password 000000
--table staff
--num-mappers 1
--export-dir /user/hive/warehouse/staff_hive
--input-fields-terminated-by "\t"

3) 执行该脚本

$ bin/sqoop --options-file opt/job_HDFS2RDBMS.opt

第5章Sqoop一些常用命令及参数

5.1 常用命令列举

这里给大家列出来了一部分Sqoop操作时的常用参数，以供参考，需要深入学习的可以参看对应类的源代码。

5.2 命令&参数详解

刚才列举了一些Sqoop的常用命令，对于不同的命令，有不同的参数，让我们来一一列举说明。

首先来我们来介绍一下公用的参数，所谓公用参数，就是大多数命令都支持的参数。

大数据技术之Sqoop1

第1章 Sqoop简介

第2章Sqoop原理

第3章Sqoop安装

3.1 下载并解压

3.2 修改配置文件

3.3 拷贝JDBC驱动

3.4 验证Sqoop

3.5 测试Sqoop是否能够成功连接数据库

第4章Sqoop的简单使用案例

4.1 导入数据

4.1.1 RDBMS到HDFS

4.1.2 RDBMS到Hive

4.1.3 RDBMS到Hbase

4.2、导出数据

4.2.1 HIVE/HDFS到RDBMS

4.3 脚本打包

第5章Sqoop一些常用命令及参数

5.1 常用命令列举

5.2 命令&参数详解

5.2.1 公用参数：数据库连接

5.2.2 公用参数：import

5.2.3 公用参数：export

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大数据技术之Sqoop1

第1章 Sqoop简介

第2章Sqoop原理

第3章Sqoop安装

3.1 下载并解压

3.2 修改配置文件

3.3 拷贝JDBC驱动

3.4 验证Sqoop

3.5 测试Sqoop是否能够成功连接数据库

第4章Sqoop的简单使用案例

4.1 导入数据

4.1.1 RDBMS到HDFS

4.1.2 RDBMS到Hive

4.1.3 RDBMS到Hbase

4.2、导出数据

4.2.1 HIVE/HDFS到RDBMS

4.3 脚本打包

第5章Sqoop一些常用命令及参数

5.1 常用命令列举

5.2 命令&参数详解

5.2.1 公用参数：数据库连接

5.2.2 公用参数：import

5.2.3 公用参数：export

热门文章

最新文章

相关课程

相关电子书