云HBase需要借助外部Hive对多表进行关联分析,后续云HBase将集成Spark,更加建议使用Spark分析HBase数据。本文简单介绍下如何利用EMR的Hive关联云HBase的表。
1. 环境准备
- 购买按量计费的EMR集群,配置依据实际场景确定,注意要和EMR处在同一VPC下,建议不需开启高可用。
- 由于云HBASE的HDFS端口默认是不开的,需要联系工作人员开通。
- 将EMR所有节点的IP加入到云HBase白名单
- 获取云HBase的zookeeper访问地址,可在云HBase控制台查看。
2. 修改配置
- 进入hive配置目录/etc/ecm/hive-conf/
-
修改hbase-site.xml,将hbase.zookeeper.quorum修改为云HBase的zookeeper访问连接
<property> <name>hbase.zookeeper.quorum</name> <value>hb-bp1mhyea7754bpigt-001.hbase.rds.aliyuncs.com,hb-bp1mhyea7754bpigt-002.hbase.rds.aliyuncs.com,hb-bp1mhyea7754bpigt-003.hbase.rds.aliyuncs.com</value> </property>
3. Hive中创建云HBase表
如果HBase表不存在,可在Hive中直接创建云HBase关联表
- 进入hive cli命令行
-
创建HBase表
CREATE TABLE hive_hbase_table(key int, value string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val") TBLPROPERTIES ("hbase.table.name" = "hive_hbase_table", "hbase.mapred.output.outputtable" = "hive_hbase_table");
-
Hive中向hbase插入数据
insert into hive_hbase_table values(212,'bab');
- 查看云HBase表,hbase表已创建,数据也已写入
- 在HBase中写入数据,并在Hive中查看
在Hive中查看:
- Hive删除表,HBase表也删除
查看hbase表,报错不存在表
如果HBase表已存在,可在Hive中HBase外表进行关联,外部表在删除时不影响HBase已创建表
- 云hbase中创建hbase表,并put测试数据
- Hive中创建HBase外部关联表,并查看数据
- 删除Hive表不影响HBase已存在表
4. 总结
Hive更多操作HBase步骤,可参考https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration
如果使用ECS自建mr集群的Hive时,操作步骤跟EMR操作类似,需要注意的是自建Hive的hbase-site.xml部分配置项可能与云HBase不一致,简单来说网络和端口开放后,只保留hbase.zookeeper.quorum即可与云Hbase进行关联。