kettle spoon连接hbase

本文涉及的产品
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,118元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介:

spoon下载安装地址:http://www.pentaho.com/download

选择  Download Windows ,只有windows 版的才是spoon,下载解压后即可使用,无需安装。

spoon是纯java编写的,所以使用前必需安装java的jdk包

下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html

连接HBase需要配置(实际连接HBase是通过zookeeper服务)

进入spoon解压目录,打开 plugins\pentaho-big-data-plugin\plugin.properties 文件

wKiom1V6T1zhI5tvAANfk5HrmEA064.jpg

修改  active.hadoop.configuration 配置项(配置驱动集目录名),默认这里为空。当前已经修改好。

进入目录 plugins\pentaho-big-data-plugin\hadoop-configurations 查看当前可用驱动集目录

wKioL1V6Uw6Bn4SVAAHNZD0BLoo146.jpg

里面的4个目录均为 hadoop-configurations 驱动集,链接HBase 需要 zookeeper-*.jar 文件

如在cdh52目录 lib 下:

wKioL1V6VAaSbHIBAANfL7yknK0523.jpg

那么 cdh52 就驱动集可以使用。



HBase启动时会绑定服务器的hostname值,所以在spoon机器中需要绑定相同的host否则无法连接。

在HBase机器上输入命令:

1
hostname

如:

1
2
root@ubuntu:~ # hostname
ubuntu

然后修改spoon机器上的hosts

打开 C:\Windows\System32\drivers\etc\hosts 文件

如HBase服务器的IP是 192.168.0.10

则在 hosts 文件中新加一行,并保存。

1
192.168.0.10 ubuntu


打开spoon,进入spoon解压目录双击 Spoon.bat 文件

注:其实在linux下也可以运行(远程连接不行)只要打开spoon.sh脚本即可

新建转换,并且点击 Big Data > HBase Input

wKiom1V6WRmgKrRxAAKWkYZubnc066.jpg


双击 HBase Input 图标 >  点击New 弹出编辑 Hadoop cluster窗口

wKioL1V6amHBCVRlAAFtH6esi2I084.jpg

修改Cluster Name 值(即这个HBase 连接别名),修改ZooKeeper 如HBase所在服务器IP为192.168.0.10 默认HBase 端口号为 2182

wKiom1V6aYegtVpfAAFta83RSCU163.jpg

确定,然后在 Hadoop Cluster 选中 hbase-test

wKiom1V6bBOzHgaiAAHheCcZuRc636.jpg


进入Create/Edit mappings选择卡,按以下步骤操作

wKioL1V6cuODaaDpAAOHv_6i7Q0379.jpg

然后返回 Configure query 选项卡,按步骤操作

wKioL1V6fbvzD5a6AASY4jt-GQI436.jpg


然后鼠标右键HBase Input > 选择Preview  > 快速启动

即可查看数据。


spoon下载安装地址:http://www.pentaho.com/download

选择  Download Windows ,只有windows 版的才是spoon,下载解压后即可使用,无需安装。

spoon是纯java编写的,所以使用前必需安装java的jdk包

下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html

连接HBase需要配置(实际连接HBase是通过zookeeper服务)

进入spoon解压目录,打开 plugins\pentaho-big-data-plugin\plugin.properties 文件

wKiom1V6T1zhI5tvAANfk5HrmEA064.jpg

修改  active.hadoop.configuration 配置项(配置驱动集目录名),默认这里为空。当前已经修改好。

进入目录 plugins\pentaho-big-data-plugin\hadoop-configurations 查看当前可用驱动集目录

wKioL1V6Uw6Bn4SVAAHNZD0BLoo146.jpg

里面的4个目录均为 hadoop-configurations 驱动集,链接HBase 需要 zookeeper-*.jar 文件

如在cdh52目录 lib 下:

wKioL1V6VAaSbHIBAANfL7yknK0523.jpg

那么 cdh52 就驱动集可以使用。



HBase启动时会绑定服务器的hostname值,所以在spoon机器中需要绑定相同的host否则无法连接。

在HBase机器上输入命令:

1
hostname

如:

1
2
root@ubuntu:~ # hostname
ubuntu

然后修改spoon机器上的hosts

打开 C:\Windows\System32\drivers\etc\hosts 文件

如HBase服务器的IP是 192.168.0.10

则在 hosts 文件中新加一行,并保存。

1
192.168.0.10 ubuntu


打开spoon,进入spoon解压目录双击 Spoon.bat 文件

注:其实在linux下也可以运行(远程连接不行)只要打开spoon.sh脚本即可

新建转换,并且点击 Big Data > HBase Input

wKiom1V6WRmgKrRxAAKWkYZubnc066.jpg


双击 HBase Input 图标 >  点击New 弹出编辑 Hadoop cluster窗口

wKioL1V6amHBCVRlAAFtH6esi2I084.jpg

修改Cluster Name 值(即这个HBase 连接别名),修改ZooKeeper 如HBase所在服务器IP为192.168.0.10 默认HBase 端口号为 2182

wKiom1V6aYegtVpfAAFta83RSCU163.jpg

确定,然后在 Hadoop Cluster 选中 hbase-test

wKiom1V6bBOzHgaiAAHheCcZuRc636.jpg


进入Create/Edit mappings选择卡,按以下步骤操作

wKioL1V6cuODaaDpAAOHv_6i7Q0379.jpg

然后返回 Configure query 选项卡,按步骤操作

wKioL1V6fbvzD5a6AASY4jt-GQI436.jpg


然后鼠标右键HBase Input > 选择Preview  > 快速启动

即可查看数据。

本文转自  ttlxihuan    51CTO博客,原文链接:http://blog.51cto.com/php2012web/1661247
相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
4月前
|
DataWorks 数据管理 大数据
DataWorks操作报错合集之在连接HBase时出现超时问题,该怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
SQL 消息中间件 分布式数据库
flink sql问题之连接HBase报错如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
433 0
|
消息中间件 分布式计算 关系型数据库
Kafka-HBase-MapReduce-Mysql 连接实践 通话记录
Kafka-HBase-MapReduce-Mysql 连接实践 通话记录
130 0
Kafka-HBase-MapReduce-Mysql 连接实践 通话记录
|
SQL 资源调度 关系型数据库
06-PDI(Kettle)读取Hive写入HDFS,读取HDFS写入HBase中(下)
文章目录 06-PDI(Kettle)读取Hive写入HDFS,读取HDFS写入HBase中 环境准备 1.安装MySQL 1.1mysql安装参考: 1.2安装过程
06-PDI(Kettle)读取Hive写入HDFS,读取HDFS写入HBase中(下)
|
SQL 分布式计算 关系型数据库
06-PDI(Kettle)读取Hive写入HDFS,读取HDFS写入HBase中(上)
文章目录 06-PDI(Kettle)读取Hive写入HDFS,读取HDFS写入HBase中 环境准备 1.安装MySQL 1.1mysql安装参考: 1.2安装过程
06-PDI(Kettle)读取Hive写入HDFS,读取HDFS写入HBase中(上)
|
存储 SQL 分布式数据库
phoenix连接hbase时的bug处理通用方法(亲测)
phoenix连接hbase时的bug处理通用方法(亲测)
726 0
|
SQL 缓存 安全
如何正确管理HBase的连接
如何正确管理HBase的连接
789 0
如何正确管理HBase的连接
|
分布式数据库 Hbase Java
图形化界面客户端连接phoenix操作hbase
下载客户端软件 DBeaver https://dbeaver.io/download/ 选择对应系统的版本,我这里选择解压版windows64位 创建连接 选择合适...
4323 0
|
2月前
|
分布式计算 Java Hadoop
java使用hbase、hadoop报错举例
java使用hbase、hadoop报错举例
90 4
|
1月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
69 4