Kettle---初识-阿里云开发者社区

开发者社区> 丁国华> 正文

Kettle---初识

简介:         最近因公司项目的原因,小编接触到了Kettle这样一款工具,感觉挺好玩儿的,通过几天的探索和学习,对Kettlde的使用有了一点点小心得,小编打算把这段期间学习和探索到的关于Kettle的东东写几篇博客记录一下,一来是可以总结一下这几天的研究成果,二来可以帮助到有需要的小伙伴们,不足之处,还请小伙伴们多多指教。
+关注继续查看

        最近因公司项目的原因,小编接触到了Kettle这样一款工具,感觉挺好玩儿的,通过几天的探索和学习,对Kettlde的使用有了一点点小心得,小编打算把这段期间学习和探索到的关于Kettle的东东写几篇博客记录一下,一来是可以总结一下这几天的研究成果,二来可以帮助到有需要的小伙伴们,不足之处,还请小伙伴们多多指教。

     自我介绍

        Hello大家好,我是Kettle,我是一款国外开源的ETL工具,我是纯java编写的,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。我的中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。ETL是Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程,对于IT行业(也有其他行业)来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种ETL工具的使用,必不可少。我绿色无需安装,Kettle中有两种脚本文件,transformation和job;transformation完成针对数据的基础转换,job则完成整个工作流的控制。

 e    部署运行以及可能遇见的坑

         小编用的版本是6.1,小伙伴们可以直接去官网上进行下载,解压到任意盘即可,Windows平台下,双击运行Kettle文件夹下的spoon.bat 文件,如果是Linux、AppleOSX运行的是Spoon.sh。当然安装的前提是,小伙伴们的电脑已经配置好java的环境变量了,如果java_home设置,仍然提示
  could not find the main class. Program willexit!
可以设置环境变量:PENTAHO_JAVA_HOME,变量值为:jdk的安装目录,1.6以上即可。小编的为:C:\ProgramFiles\Java\jre1.8.0_77,如果启动还是报错 ERROR:could not create the java virtualmachine! 不是Java虚拟出了问题,修改一下spoon.bat里内存配置:
  if"%PENTAHO_DI_JAVA_OPTIONS%"=="" setPENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m""-XX:MaxPermSize=256m"
 改为:
  if"%PENTAHO_DI_JAVA_OPTIONS%"=="" setPENTAHO_DI_JAVA_OPTIONS="-Xms512m" "-Xmx1024m""-XX:MaxPermSize=256m",其中还有可能遇到的一个坑就是连接数据库找不到驱动的问题,小编的数据库是MySql,提示错误为[mysql] :org.pentaho.di.core.exception.KettleDatabaseException:
      Error occured while trying to connect tothe database
      Driver class 'org.gjt.mm.mysql.Driver'could not be found, make sure the 'MySQL' driver (jar file) is installed.
      org.gjt.mm.mysql.Driver

        解决办法:把mysql-connector-java-5.1.37-bin.jar拷贝到安装包lib的文件夹下面,然后重新启动spoon.bat即可。以上是小编在安装Kettle过程中遇到的一些问题,写下来,希望小伙伴们看到可以避免相同的坑。

     产品家族
         Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen。是不是感觉来到了厨房世家!
SPOON:通过图形界面来设计ETL转换过程(Transformation)。
PAN :批量运行由Spoon设计的ETL转换(例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。
CHEF :创建任务(Job)。任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。
KITCHEN :批量使用由Chef设计的任务(例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。
  配置数据库

        配置数据库有两种方式,第一种是直接配置,另一种是在JNDI配置文件里,首先我们来看第一种配置数据库的方式,点击菜单栏文件里面有一个数据库连接,打开如下所示:


例如,小编的一些设置如下所示:


这个就是常见的工具连接数据库,填写好上述内容之后,点击测试,出现如下界面,表示数据库连接成功!

        

        ok,出现上述这个界面,说明我们的数据库已经连接成功了,这样配置数据库的优点是随时需要随时进行配置,如果需要改变连接,修改此处配置可以立即生效,缺点是如果转换的比较多,一旦需要修改数据源每个转换都要进行改动,就比较麻烦了,所以介绍第一种配置连接数据库的方式,通过配置文件,如下图所示:


所连接名称是为了在转换中好选择进行填写的,填什么都OK!

小编寄语:该博文小编主要介绍了Kettle的基础知识,包括kettle的简介,部署Kettle时可能遇见的坑,Kettle

的产品家族以及如何配置数据库的两种方式,Kettle这个ETL工具集她允许我们管理来自不同数据库的数据,好啦,

关于Kettle的一些基本知识,小编就先介绍到这里,接下来的博文中,小编将结合具体的Demo来讲解如何在实际操作

中运用Kettle,敬请期待!


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
9494 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
11208 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
9053 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13177 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
4620 0
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
7386 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,云吞铺子总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系统盘、创建快照、配置安全组等操作如何登录ECS云服务器控制台? 1、先登录到阿里云ECS服务器控制台 2、点击顶部的“控制台” 3、通过左侧栏,切换到“云服务器ECS”即可,如下图所示 通过ECS控制台的远程连接来登录到云服务器 阿里云ECS云服务器自带远程连接功能,使用该功能可以登录到云服务器,简单且方便,如下图:点击“远程连接”,第一次连接会自动生成6位数字密码,输入密码即可登录到云服务器上。
21907 0
+关注
丁国华
你只管努力,剩下的交给时光!
214
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载