Impala之加载HBase数据-阿里云开发者社区

Impala之加载HBase数据

2016-04-05 1848

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Impala如何加载HBase数据？本文将为大家进行详细介绍Impala加载HBase数据的步骤。第一步：HBase创建表（或选择已有表） HBase shell命令行执行命令： create 'impala_hbase_test...

Impala如何加载HBase数据？本文将为大家进行详细介绍Impala加载HBase数据的步骤。

第一步：HBase创建表（或选择已有表）

HBase shell命令行执行命令：

create 'impala_hbase_test_table', {NAME => 'f', VERSION => 3, COMPRESSION => 'SNAPPY'}

如图所示：

第二步：HBase表存入数据

利用Java API往HBase写入数据，示例代码如下：

					int j = 0;
					for (int i = 0; i < 10000; i++) {
						Random random = new Random();

						Hashtable<String, String> pColumns = new Hashtable<String, String>();
						pColumns.put("dn", "dn" + random.nextInt(100));
						pColumns.put("fn", "fn" + random.nextInt(100));

						try {
							HBaseUtil.postBasic("impala_hbase_test_table",
									this.getName() + j++, "f", pColumns, null);
						} catch (Exception e2) {
							// TODO Auto-generated catch block
							e2.printStackTrace();
						}
					}

其中HBaseUtil的postBasic()方法为HBase Java API入库操作，写入的表为impala_hbase_test_table，rowkey为线程名加递增数，列簇为f，写入的列为dn、fn，值分别为列名加随机数。

第三步：Hive创建Database，并使用

在Hive Shell命令行，执行Database创建及使用命令，如下图所示：

第四步：将HBase数据加载到Hive

在Hive Shell命令行执行如下命令：

CREATE EXTERNAL TABLE impala_hbase(
rk string,
un tinyint,
dn string,
fn string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.hbase.HBaseSerDe'
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key, f:un, f:dn, f:fn")
TBLPROPERTIES("hbase.table.name" = "impala_hbase_test_table");

如下图所示：

其中，在WITH SERDEPROPERTIES选项中指定Hive外部表字段到HBase列的映射，其中“:key”对应于HBase中的rowkey，其余的就是列簇f中的列名。最后在TBLPROPERTIES中指定了HBase中要进行映射的表名。

第五步：Impala与Hive进行元数据同步

在Impala Shell命令行，执行操作INVALIDATE METADATA；

如下图所示：

第六步：Impala切换到与Hive相同的DataBase，进行数据验证

相关实践学习

lindorm多模间数据无缝流转

展现了Lindorm多模融合能力——用kafka API写入，无缝流转在各引擎内进行数据存储和计算的实验。

云数据库HBase版使用教程

  相关的阿里云产品：云数据库 HBase 版面向大数据领域的一站式NoSQL服务，100%兼容开源HBase并深度扩展，支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力，是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库，是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验：数据库上云实战开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引，您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。点击下方链接，领取免费ECS&RDS资源，30分钟完成数据库上云实战！https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl

Impala之加载HBase数据

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Impala之加载HBase数据

热门文章

最新文章

相关课程

相关电子书