Sqoop操作实践

2016-01-12 1448

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生数据库 PolarDB MySQL 版，通用型 2核4GB 50GB

云原生数据库 PolarDB PostgreSQL 版，标准版 2核4GB 50GB

Sqoop操作实践

@(Hadoop)

Sqoop常用参命令

序号	命令/command	类	说明
1	impor	ImportTool	从关系型数据库中导入数据(来自表或者查询语句)到HDFS中
2	export	ExportTool	将HDFS中的数据导入到关系型数据库中
3	codegen	CodeGenTool	获取数据库中某张表数据生成Java并打成jar包
4	create-hive-table	CreateHiveTableTool	创建Hive表
5	eval	EvalSqlTool	查看SQL执行结果
6	import-all-tables	ImportAllTablesTool	导入某个数据库下所有表到HDFS中
7	job	JobTool
8	list-databases	ListDatabasesTool	列出所有数据库名
9	list-tables	ListTablesTool	列出某个数据库下所有表
10	merge	MergeTool
11	metastore	MetastoreTool
12	help	HelpTool	查看帮助
13	version	VersionTool	查看版本

通用参数

序号	参数	说明	样例
1	connect	连接关系型数据库的URL	jdbc:mysql://localhost/sqoop_datas
2	connection-manager	连接管理类,一般不用
3	driver	连接驱动
4	hadoop-home	hadoop目录	/home/guoyun/hadoop
5	help	查看帮助信息
6	password	连接关系型数据库的密码
7	username	链接关系型数据库的用户名
8	verbose	查看更多的信息,其实是将日志级别调低

–where和–query导入部分表数据

Sqoop的–import使用–table指定表之后，默认是导入该表的全部数据，有时候我们可能只需要表其中一部分的数据，或者仅仅是导入小部分数据作为测试，那么可以使用–where和–query参数来进行条件限定。

–where：例如”id<100”，只导入该表id小于100的数据，和sql的where条件是一样的。

–query：引号中的是SQL语句，SQL执行的结果就是要导入的数据，必须和–target-dir一起使用。

增量导入

以下三个参数必须同时指定：

–check-column (col)：检查指定的列，根据此列判断哪些记录是新数据且需要导入的，列不能是字符相关类型（CHAR/NCHAR/VARCHAR/VARNCHAR/ LONGVARCHAR/LONGNVARCHAR），一般为数据库中的关键字。
–incremental (mode)：指定增量模式，mode包含两种方式，append和lastmodified。

当表中的记录是以id持续增加导入新的记录的时候，可以使用append模式，–check-column id 用于检查id。

lastmodified：表有时候也会执行更新操作，此时可以使用lastmodified导入。

–last-value (value)： –check-column的某个值，将大于该值的检查列记录导入，以确定仅将新的或者更新后的记录导入新的文件系统。

和–append参数的区别：
–append导入的时候不会再次创建新的HDFS目录（使用普通命令的话，会创建一个新的HDFS目录，如果该目录已存在则会失败），该命令会直接在已存在的目录下继续导入数据，但是不管数据是否重复。

-import-all-tables导入多表

导入的每个表数据被分别存储在以表名命名的HDFS上的不同目录中。
使用该命令以下三个条件必须同时满足：

1、每个表必须都只有一个列作为主键；

2、必须将每个表中所有的数据导入，而不是部分；

3、必须使用默认分隔列，且WHERE子句无任何强加的条件

–table, –split-by, –columns, 和 –where参数在sqoop-import-all-tables命令中是不合法的。

也就是说，使用-import-all-tables就无法使用增量导入和部分导入了。

–exclude-tables：默认是导入该数据库的全部表，如果只想导入部分表，可以使用该参数将不想导入的表排除掉。

map并行任务数

Sqoop并行导入原理：
默认情况下map的任务数是4，假设导入的表主键为id，那么Sqoop会先进行下面这样一个查询。

select max(id) as max, select min(id) as min from table [where 如果指定了where子句];

通过这个查询，获取到需要拆分字段（id）的最大值和最小值，假设分别是1和1000。

然后，Sqoop会根据需要并行导入的数量，进行拆分查询，比如上面的这个例子，并行导入将拆分为如下4条SQL同时执行：

select * from table where 0 <= id < 250;
select * from table where 250 <= id < 500;
select * from table where 500 <= id < 750;
select * from table where 750 <= id < 1000;

注意，这个拆分的字段需要是整数，使用–split-by参数进行指定。
从上面的例子可以看出，如果需要导入的表没有主键，我们应该如何手动选取一个合适的拆分字段，以及选择合适的并行数。

map的任务数不超过集群可以用的mr并行度（节点数），不超过数据库能性能影响的极值。

测试

#测试增量导入
#第一次导入RECORD_NO<100的数据
sqoop import --connect jdbc:oracle:thin:@ip:port:database --username uid --password pwd --target-dir /oracle/$database -m 1 --table tableName  --fields-terminated-by '\001' --where "RECORD_NO<100"

#第二次增量导入RECORD_NO<200的数据，从RECORD_NO=99开始
sqoop import --check-column RECORD_NO --incremental append --last-value 99 --connect jdbc:oracle:thin:@ip:port:database --username uid --password pwd --target-dir /oracle/$database -m 1 --table tableName  --fields-terminated-by '\001' --where "RECORD_NO<200"

#第三次增量导入全部数据，从RECORD_NO=199开始
sqoop import --check-column RECORD_NO --incremental append --last-value 199 --connect jdbc:oracle:thin:@ip:port:database --username uid --password pwd --target-dir /oracle/$database -m 1 --table tableName  --fields-terminated-by '\001' --split-by RECORD_NO

#测试多表导入
sqoop import-all-tables --connect jdbc:oracle:thin:@ip:port:database --username uid --password pwd --target-dir /oracle/$database -m 8 --fields-terminated-by '\001' --exclude-tables excludeTablesName

#单表导入全部数据，使用并行导入，指定分割列
sqoop import --connect jdbc:oracle:thin:@ip:port:database --username uid --password pwd --target-dir /oracle/$database -m 1 --table tableName  --fields-terminated-by '\001' --split-by PAYMENT_ID

测试失败，待重试

定时导入脚本实现

#!/bin/bash

#Oracle的连接字符串，其中包含了Oracle的地址，SID，和端口号
url=jdbc:oracle:thin:@ip:port:database
#使用的用户名
uid=username
#使用的密码
pwd=password
#需要从Oracle中导入的表名
tableName=tableName
#需要从Oracle中导入的表中的字段名
columns=columns
#将Oracle中的数据导入到HDFS后的存放路径
hdfsPath=path/$tableName

#执行导入逻辑。将Oracle中的数据导入到HDFS中
sqoop import --connect $url --username $uid --password $pwd --target-dir $hdfsPath  --m 1 --table $tableName --columns $columns --fields-terminated-by '\001'

设置定时执行

#编辑cron文件，设置定时执行
crontab -e

#文件内容，每天凌晨1点执行数据导入脚本
* 1 * * * 脚本所在路径

#保存退出之后即可

关于crontab一些知识请看：
linux设置定制器自动执行任务

注意事项

导入关系型数据库的数据时，确保集群上的所有节点都能连接到对应数据库服务器的IP和端口号！

用户名和表名一定要大写！

可以先使用list-tables测试能否连通再执行mr导入数据
统计导入的数据行数：

hadoop fs -cat  /导入的文件 | wc -l

导入HBase示例

#使用query参数自定义结果集，全量导入测试通过： 
sqoop import  --connect jdbc:oracle:thin:@ip:port:database --username UID --password pwd --query 'select reverse(t.op) as ROWKEY from  table t WHERE (1=1)  and $CONDITIONS ' --hbase-table test  --column-family test  --hbase-row-key ROWKEY --hbase-create-table -m 8 --split-by ORDER_ID

增量导入测试通过：
sqoop import  --connect jdbc:oracle:thin:@ip:port:database --username UID --password pwd --query 'select reverse(t.op) as ROWKEY from  table t WHERE (1=1)  and $CONDITIONS and t.ID<23' --hbase-table testapp  --column-family test  --hbase-row-key ROWKEY --hbase-create-table -m 8 --split-by ID --hbase-create-table

sqoop import  --connect jdbc:oracle:thin:@ip:port:database --username UID --password pwd --query 'select reverse(t.op) as ROWKEY from  table t WHERE (1=1)  and $CONDITIONS and t.ID<227840' --hbase-table test  --column-family test  --hbase-row-key ROWKEY --hbase-create-table -m 8 --split-by ID --check-column ID --incremental append --last-value 22

注意事项：

使用query参数时，如果sql中包含单引号，那么整个sql需要用双引号包裹起来，$CONDITIONS参数需要用\进行转义，变为\$CONDITIONS，否则会报错。

增量导入的时候check-column指定为数字类型的字符串失败，需要使用数字类型。

1.27更新

检查发现导入hdfs的很多数据和oracle中的对不上，排查了很久发现是-m 8，这个并行量设置的问题（-m 1使用一个map进行导入是正确的数据）。

猜测，可能是–split-by设置的字段造成导入的时候有的数据没有导入，有的数据重复导入，但是我使用的是rownum这个内置的变量，理应是没错的，不得其解。

作者：@小黑

Sqoop操作实践

Sqoop操作实践

Sqoop常用参命令

通用参数

–where和–query导入部分表数据

增量导入

-import-all-tables导入多表

map并行任务数

测试

定时导入脚本实现

注意事项

导入HBase示例

1.27更新

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Sqoop操作实践

Sqoop操作实践

Sqoop常用参命令

通用参数

–where和–query导入部分表数据

增量导入

-import-all-tables导入多表

map并行任务数

测试

定时导入脚本实现

注意事项

导入HBase示例

1.27更新

热门文章

最新文章

相关课程

相关电子书

相关实验场景