【Sqoop】（二）Sqoop 的简单使用案例-阿里云开发者社区

【Sqoop】（二）Sqoop 的简单使用案例

2022-06-09 284

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

RDS MySQL Serverless 高可用系列，价值2615元额度，1个月

云数据库 RDS MySQL，高可用系列 2核4GB

简介： 【Sqoop】（二）Sqoop 的简单使用案例

文章目录

一、导入数据

1.1 RDBMS到HDFS

1.2 RDBMS到Hive

1.3 RDBMS到Hbase

二、导出数据

2.1 HIVE/HDFS到RDBMS

三、脚本打包

一、导入数据

在Sqoop中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE，HBASE）中传输数据，叫做：导入，即使用import关键字。

1.1 RDBMS到HDFS

确定Mysql服务开启正常

在Mysql中新建一张表并插入一些数据

$ mysql -uroot -p000000
mysql> create database company;
mysql> create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));
mysql> insert into company.staff(name, sex) values('Thomas', 'Male');
mysql> insert into company.staff(name, sex) values('Catalina', 'FeMale');

导入数据

（1）全部导入

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"

（2）查询导入

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query 'select name,sex from staff where id <=1 and $CONDITIONS;'

提示：must contain '$CONDITIONS' in WHERE clause.

如果query后使用的是双引号，则$CONDITIONS前必须加转义字符，防止shell识别为自己的变量。

（3）导入指定列

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--columns id,sex \
--table staff

提示：columns中如果涉及到多列，用逗号分隔，分隔时不要添加空格

（4）使用sqoop关键字筛选查询导入数据

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--table staff \
--where "id=1"

1.2 RDBMS到Hive

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--num-mappers 1 \
--hive-import \
--fields-terminated-by "\t" \
--hive-overwrite \
--hive-table staff_hive

提示：该过程分为两步，第一步将数据导入到HDFS，第二步将导入到HDFS的数据迁移到Hive仓库，第一步默认的临时目录是自己配置的表名

1.3 RDBMS到Hbase

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table company \
--columns "id,name,sex" \
--column-family "info" \
--hbase-create-table \
--hbase-row-key "id" \
--hbase-table "hbase_company" \
--num-mappers 1 \
--split-by id

提示：sqoop1.4.6只支持HBase1.0.1之前的版本的自动创建HBase表的功能

解决方案：手动创建HBase表

hbase> create 'hbase_company,'info'

(5) 在HBase中scan这张表得到如下内容

hbase> scan ‘hbase_company’

二、导出数据

在Sqoop中，“导出”概念指：从大数据集群（HDFS，HIVE，HBASE）向非大数据集群（RDBMS）中传输数据，叫做：导出，即使用export关键字。

2.1 HIVE/HDFS到RDBMS

$ bin/sqoop export \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--num-mappers 1 \
--export-dir /user/hive/warehouse/staff_hive \
--input-fields-terminated-by "\t"

提示：Mysql中如果表不存在，不会自动创建

三、脚本打包

使用opt格式的文件打包sqoop命令，然后执行

创建一个.opt文件

$ mkdir opt
$ touch opt/job_HDFS2RDBMS.opt

编写sqoop脚本

$ vi opt/job_HDFS2RDBMS.opt
export
--connect
jdbc:mysql://hadoop102:3306/company
--username
root
--password
000000
--table
staff
--num-mappers
1
--export-dir
/user/hive/warehouse/staff_hive
--input-fields-terminated-by
"\t"

执行该脚本

$ bin/sqoop --options-file opt/job_HDFS2RDBMS.opt

【Sqoop】（二）Sqoop 的简单使用案例

文章目录

一、导入数据

1.1 RDBMS到HDFS

1.2 RDBMS到Hive

1.3 RDBMS到Hbase

二、导出数据

2.1 HIVE/HDFS到RDBMS

三、脚本打包

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Sqoop】（二）Sqoop 的简单使用案例

文章目录

一、导入数据

1.1 RDBMS到HDFS

1.2 RDBMS到Hive

1.3 RDBMS到Hbase

二、导出数据

2.1 HIVE/HDFS到RDBMS

三、脚本打包

热门文章

最新文章

相关课程

相关电子书