hive数据导入云hbase-阿里云开发者社区

hive数据导入云hbase

2018-08-23 5764

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS SQL Server Serverless，2-4RCU 50GB 3个月

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

RDS PostgreSQL Serverless，0.5-4RCU 50GB 3个月

简介： 网络环境专线:用户需要把hbase集群的VPC相关网络信息配置到专线里面，可直通hbase环境公有云虚拟机VPC环境：选择和hbase通VPC 其他：需要开hbase公网注意：默认导入hbase数据，依赖的hbase-common、hbase-client、hbase-server、hbase-protocol使用社区的包即可。

网络环境

专线:用户需要把hbase集群的VPC相关网络信息配置到专线里面，可直通hbase环境
公有云虚拟机VPC环境：选择和hbase通VPC
其他：需要开hbase公网
注意：默认导入hbase数据，依赖的hbase-common、hbase-client、hbase-server、hbase-protocol使用社区的包即可。如果是公网需要使用云hbase发布的相关包

方案一：hive关联hbase表方式

适用场景：数据量不大4T以下(因为需要走hbase的api导入数据)
从hbase页面获取zk连接地址，并用下述方式启动hive客户端

hive  --hiveconf hbase.zookeeper.quorum=xxxx

hbase表不存在的情况

创建hive表hive_hbase_table映射hbase表base_table，会自动创建hbase表hbase_table,且会随着hive表删除而删除。这里需要指定hive的schema到hbase schema的映射关系。关于类型可参考Hive/HBaseIntegration

CREATE TABLE hive_hbase_table(key int, value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val") 
TBLPROPERTIES ("hbase.table.name" = "hbase_table", 
"hbase.mapred.output.outputtable" = "hbase_table");

创建一张原始的hive表，准备一些数据

create table hive_data (mykey int,myval string);
insert into hive_data values(1,"www.ymq.io");

把hive原表hive_data中数据，通过hive表hive_hbase_table导入到hbase的表hbase_table中

insert into table hive_hbase_table select * from hive_data;

查看hbase表hbase_table中是否有数据

undefined

hbase表存在的情况

创建hive的外表关联hbase表,注意hive schema到hbase schema的映射关系。删除外表不会删除对应hbase表

CREATE EXTERNAL TABLE hive_hbase_external_table(key int, value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val") 
TBLPROPERTIES ("hbase.table.name" = "hbase_table", 
"hbase.mapred.output.outputtable" = "hbase_table");

其他导入数据相关同2

方案二：hive表生成hfile，通过bulkload导入到hbase

适用场景：数据量大(4T以上)
把hive数据转换为hfile

启动hive并添加相关hbase的jar包

add jar /usr/lib/hive-current/lib/hive-hbase-handler-2.3.3.jar;
add jar /usr/lib/hive-current/lib/hbase-common-1.1.1.jar;
add jar /usr/lib/hive-current/lib/hbase-client-1.1.1.jar;
add jar /usr/lib/hive-current/lib/hbase-protocol-1.1.1.jar;
add jar /usr/lib/hive-current/lib/hbase-server-1.1.1.jar;

创建一个outputformat为HiveHFileOutputFormat的hive表
- 其中/tmp/hbase_table_hfile/cf_0是hfile保存到hdfs的路径，cf_0是hbase family的名字

create table hbase_hfile_table(key int, cf_0_c0 string) 
stored as
INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.hbase.HiveHFileOutputFormat'
TBLPROPERTIES ('hfile.family.path' = '/tmp/hbase_table_hfile/cf_0');

把原始数据表的数据通过hbase_hfile_table表保存为hfile

insert into table hbase_hfile_table select * from hive_data;

查看对应hdfs路径是否生成了hfile

undefined

通过bulkload将数据导入到hbase表中

使用阿里云hbase客户端创建具有上面对应family的hbase表

hbase(main):012:0> create 'hbase_hfile_load_table','cf_0'

下载云hbase客户端,配置hbase-site.xml，并将hdfs-site.xml、core-site.xml拷贝到hbase/conf目录

 wget http://public-hbase.oss-cn-hangzhou.aliyuncs.com/installpackage/alihbase-1.1.4-bin.tar.gz .
 vi conf/hbase-site.xml
 <property>
         <name>hbase.zookeeper.quorum</name>
         <value>xxx</value>
 </property>

执行bulkload导入到hbase表中

bin/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles hdfs://maste:port/tmp/hbase_table_hfile/  hbase_hfile_load_table

在hbase表hbase_hfile_load_table查看数据是否导入

参考资料

相关实践学习

lindorm多模间数据无缝流转

展现了Lindorm多模融合能力——用kafka API写入，无缝流转在各引擎内进行数据存储和计算的实验。

云数据库HBase版使用教程

  相关的阿里云产品：云数据库 HBase 版面向大数据领域的一站式NoSQL服务，100%兼容开源HBase并深度扩展，支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力，是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库，是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验：数据库上云实战开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引，您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。点击下方链接，领取免费ECS&RDS资源，30分钟完成数据库上云实战！https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl

hive数据导入云hbase

网络环境

方案一：hive关联hbase表方式

方案二：hive表生成hfile，通过bulkload导入到hbase

参考资料

关系型数据库

热门文章

最新文章

相关课程

相关电子书

相关实验场景