使用ImportTsv与BulkLoad等多种方式向HBase导入数据-开发者社区-阿里云

【HBase】（八）往 HBase 导入数据的几种操作

2022-06-09 3316

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【HBase】（八）往 HBase 导入数据的几种操作

文章目录

一、前言

二、利用ImportTsv将csv文件导入到HBase

三、利用completebulkload将数据导入到HBase

四、利用Import将数据导入到HBase

一、前言

HBase作为Hadoop DataBase，除了使用put进行数据导入之外，还有以下几种导入数据的方式：

（1）使用importTsv功能将csv文件导入HBase；

（2）使用import功能，将数据导入HBase；

（3）使用BulkLoad功能将数据导入HBase。

二、利用ImportTsv将csv文件导入到HBase

命令：

格式：hbase [类] [分隔符] [行键，列族] [表] [导入文件]
bin/hbase  org.apache.hadoop.hbase.mapreduce.ImportTsv  -Dimporttsv.separator="," 
-Dimporttsv.columns=HBASE_ROW_KEY,cf hbase-tb1-001 /simple.csv

simple.csv内容如下：

1,"Tony"
2,"Ivy"
3,"Tom"
4,"Spark"
5,"Storm"

创建文件
[root@hadoop1 datamove]# cat simple.csv
1,"Tony"
2,"Ivy"
3,"Tom"
4,"Spark"
5,"Storm"
上传文件
[root@hadoop1 datamove]# hdfs dfs -put simple.csv /liguodong
[root@hadoop1 datamove]# hdfs dfs -ls /liguodong
Found 5 items
-rw-r--r--   3 root supergroup         45 2015-07-06 11:13 /liguodong/simple.csv
创建表
hbase(main):001:0> create 'hbase-tb1-001','cf'
0 row(s) in 3.1120 seconds
=> Hbase::Table - hbase-tb1-001
执行mapreduce
[root@hadoop1 datamove]# hbase  org.apache.hadoop.hbase.mapreduce.ImportTsv  -Dimporttsv.separator="," 
-Dimporttsv.columns=HBASE_ROW_KEY,cf hbase-tb1-001 /liguodong/simple.csv
查看是否成功导入
hbase(main):003:0> scan 'hbase-tb1-001'
ROW                  COLUMN+CELL
 1                   column=cf:, timestamp=1436152834178, value="Tony"
 2                   column=cf:, timestamp=1436152834178, value="Ivy"
 3                   column=cf:, timestamp=1436152834178, value="Tom"
 4                   column=cf:, timestamp=1436152834178, value="Spark"
 5                   column=cf:, timestamp=1436152834178, value="Storm"
5 row(s) in 0.1490 seconds

三、利用completebulkload将数据导入到HBase

HBase支持bulkload的入库方式，它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理，直接在HDFS中生成持久化的HFile数据格式文件，然后上传至合适位置，即完成巨量数据快速入库的办法。配和mapreduce完成，高效便捷，而且不占用region资源，增添负载，在大数据量写入时，能极大的提高写入效率，并降低对HBase节点的写入压力。

通过使用先生成HFile，然后再BulkLoad到HBase的方式来替代之前直接调用HTableOutputFormat的方法有如下的好处：

1、消除了对HBase集群的插入压力

2、提高了Job的运行速度，降低了Job的执行时间

利用completebulkload将数据导入到HBase

1、先通过lmportTsv生成HFile

命令：

hbase [类] [分隔符] [输出存储路径] [行键,列族] [表] [导入原始数据文件]
bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=/hfile_tmp 
-Dimporttsv.columns=HBASE_ROW_KEY,cf hbase-tbl-002 /simple.csv

2、通过completebulkload将数据导入表hbase-tbl-002

命令：

hadoop jar lib/hbase-server-0.96.0.jar completebulkload
 /hfile_tmp hbase-tbl-002

[root@hadoop1 datamove]# hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," 
-Dimporttsv.bulk.output=/liguodong/hfile_tmp -Dimporttsv.columns=HBASE_ROW_KEY,cf hbase-tbl-002 /liguodong/simple.csv
以上的指令，它会主动创建表hbase-tbl-002和文件夹hfile_tmp。
[root@hadoop1 datamove]# hdfs dfs -ls /liguodong
drwxr-xr-x   - root supergroup          0 2015-07-06 11:54 /liguodong/hfile_tmp
[root@hadoop1 datamove]# hdfs dfs -ls -R  /liguodong/hfile_tmp
-rw-r--r--   3 root supergroup          0 2015-07-06 11:54 /liguodong/hfile_tmp/_SUCCESS
drwxr-xr-x   - root supergroup          0 2015-07-06 11:54 /liguodong/hfile_tmp/cf
-rw-r--r--   3 root supergroup       1196 2015-07-06 11:54 /liguodong/hfile_tmp/cf/e20e3fe899de47a88ca476e05da2c9d7
hbase(main):008:0> scan 'hbase-tbl-002'
ROW                  COLUMN+CELL
0 row(s) in 0.0310 seconds
将数据导入表hbase-tbl-002
[root@hadoop1 datamove]# hadoop jar /opt/cloudera/parcels/CDH/lib/hbase/hbase-server-0.98.6-cdh5.3.4.jar completebulkload 
/liguodong/hfile_tmp hbase-tbl-002

四、利用Import将数据导入到HBase

1、HBase export工具导出的数据的格式是sequence file。

比如，在执行完命令bin/hbase org.apache.hadoop.hbase.mapreduce.Export hbase-tbl-002 /test-output后，hbase会启动一个MapReduce作业，作业完成后会在hdfs上面会生成sequence file格式的数据文件。

2、对于这类Sequence file格式的数据文件，HBase是可以通过Import工具直接将它导入到HBase的表里面的。

执行命令:

bin/hbase org.apache.hadoop.hbase.mapreduce.Import hbase-tbl-003 /test-output，随后hbase会启动一个MapReduce作业，然后表test会成功入数据。

导出到hdfs
[root@hadoop1 lib]# hbase org.apache.hadoop.hbase.mapreduce.Export hbase-tb1-001 /liguodong/test-output
创建新表
hbase(main):010:0> create 'hbase-tb1-003','cf'
0 row(s) in 0.4290 seconds
=> Hbase::Table - hbase-tb1-003
导入到hbase
[root@hadoop1 lib]# hbase org.apache.hadoop.hbase.mapreduce.Import hbase-tb1-003 /liguodong/test-output
验证
hbase(main):011:0> scan 'hbase-tb1-003'
ROW                  COLUMN+CELL
 1                   column=cf:, timestamp=1436152834178, value="Tony"
 2                   column=cf:, timestamp=1436152834178, value="Ivy"
 3                   column=cf:, timestamp=1436152834178, value="Tom"
 4                   column=cf:, timestamp=1436152834178, value="Spark"
 5                   column=cf:, timestamp=1436152834178, value="Storm"
5 row(s) in 0.0580 seconds

【HBase】（八）往 HBase 导入数据的几种操作

文章目录

一、前言

二、利用ImportTsv将csv文件导入到HBase

三、利用completebulkload将数据导入到HBase

四、利用Import将数据导入到HBase

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【HBase】（八）往 HBase 导入数据的几种操作

文章目录

一、前言

二、利用ImportTsv将csv文件导入到HBase

三、利用completebulkload将数据导入到HBase

四、利用Import将数据导入到HBase

热门文章

最新文章

相关课程

相关电子书