Kettle资源库运行方式(二)

简介: Kettle资源库运行方式(二)

kettle资源库

资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。

资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。


1.ketle资源库元数据


• 资源库

   资源库包括文件资源库、数据库资源库

   Kettle 4.0 以后资源库类型可以插件扩展

 • XML 文件

   .ktr 转换文件的XML的根节点必须是

.    kjb 作业XML的根节点是


2.kettle资源库类型


数据库资源库:

   • 把 Kettle 的元数据串行化到数据库中,如 R_TRANSFORMATION 表保

  存了Kettle 转换的名称、描述等属性。

   • 在Spoon 里创建和升级数据库资源库

 文件资源库:

   在文件的基础上的封装,实现了 org.pentaho.di.repository.Repository 接口。

   是Kettle 4.0 以后版本里增加的资源库类型

 不使用资源库:

   直接保存为ktr 或 kjb 文件。


3.资源库操作


新建资源库:


kettle7.0后新建方式略有不同,新建资源库在右上角->connect,


详细新建图文步骤,

   参考:https://blog.csdn.net/m0_37979608/article/details/77096201


使用默认的admin/admin即可登陆到资源库!


如果使用中文进行了资源库命名,将会出现资源库无法新建的问题。解决方案,参考:https://blog.csdn.net/liuwenbiao1203/article/details/77579436


导入/导出资源库:


导航栏->工具->导入/导出资源库,或者探索资源库进行指定目录的导出,导出为.xml文件即可!

kettle运行方式

运行方式主要分为:图形化、命令行、API

图形界面:Spoon

 命令行:Pan、Kitchen

 API:Kettle Java API 嵌入到其他应用


1.Spoon


本地运行:前面的都是采用本地运行,直接点击运行按钮进行运行的,不再赘述


远程:Carte,


• Carte 是内嵌 Jetty 的 http server。

     • Carte执行命令 carte localhost 8080


需要现在服务器上运行命令,格式为carte ip 端口 (端口可以随意,只要不冲突即可)

2.命令行

主要有Pan和Kitchen,但是由于项目都是以作业为主,所以还是Kitchen使用的更多

参数名列表:
/rep : 资源库名称
/user : 资源库用户名
/pass : 资源库密码
/trans : 要启动的转换名称
/dir : 目录(不要忘了前缀 /)
/file : 要启动的文件名(转换文件)
/level : 日志级别 (Error, Nothing, Minimal, Basic , Detailed, Debug, Rowlevel)
/logfile : 要写入的日志文件
/listdir : 列出资源库里的目录
/listtrans : 列出指定目录下的转换
/listrep : 列出可用资源库
/exprep : 将资源库里的所有对象导出到 XML 文件中
/norep : 不要将日志写到资源库中
/safemode : 安全模式下运行: 有额外的检查
/version : 显示转换的版本,校订和创建日期
/param : 设置参数,参数格式<NAME>=<VALUE>,例如-param:FOO=bar
/listparam: 列出转换里已经设置好的参数。
/maxloglines:内存中保存日志的最大日志行数
/maxlogtimeout:内存中保存日志的最长时间
Pan
/rep : 资源库名称
/user : 资源库用户名
/pass : 资源库密码
/job : 要启动的作业名称
/dir : 目录(不要忘了前缀 /)
/file : 要启动的文件名(转换文件)
/level : 日志级别 (Error, Nothing, Minimal, Basic , Detailed, Debug, Rowlevel)
/logfile : 要写入的日志文件
/listdir : 列出资源库里的目录
/listjobs : 列出指定目录下的作业
/listrep : 列出可用资源库
/exprep : 将资源库里的所有对象导出到 XML 文件中
/norep : 不要将日志写到资源库中
/safemode : 安全模式下运行: 有额外的检查
/version : 显示转换的版本,校订和创建日期
/param : 设置参数,参数格式<NAME>=<VALUE>,例如-param:FOO=bar
/listparam: 列出转换里已经设置好的参数
/export: 把作业依赖的所有资源导出到一个zip 文件里
/maxloglines:内存中保存日志的最大日志行数
/maxlogtimeout:内存中保存日志的最长时间
Kitchen

kettle内置变量

参考:https://blog.csdn.net/qq_22073849/article/details/70139584

20190505103610158.png

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
SQL 存储 数据采集
【技术分享】元数据与数据血缘实现思路
【技术分享】元数据与数据血缘实现思路
7076 0
|
存储 资源调度 Apache
Flink on yarn 的taskslot为0问题
Flink on yarn 的taskslot为0问题
|
Prometheus 监控 Cloud Native
DataSophon手动部署Doris操作指南
DataSophon手动部署Doris操作指南
2833 0
|
7月前
|
安全 数据挖掘 API
车辆车型大全 API 实战指南:推动交通行业智能化
车辆车型大全API由探数平台提供,旨在解决企业班车、物流运输及汽车销售等行业对标准化车型数据的需求。传统人工维护车型库效率低且易出错,而该API覆盖主流品牌与车系,包含品牌、车系、销售车型及配置参数等详细信息,适用于车队管理、电商平台及汽车资讯平台。API提供四个子接口:获取品牌、车系、销售车型与配置详情信息,支持高效查询。通过HTTP POST请求即可调用,返回结构化数据,助力企业实现智能化运营与科学决策,在绿色智能交通时代发挥重要作用。
375 4
|
监控 关系型数据库 MySQL
数据治理平台Datavines
【10月更文挑战第20天】随着数据量的增长和数字化转型的推进,数据治理成为关键议题。Datavines是一个开源的数据治理平台,提供数据目录、概览及质量检查等功能,帮助用户全面了解和管理数据,确保数据的准确性和有效性。通过简单的部署和配置,即可快速启动使用,支持数据源配置、质量监控及作业管理等核心功能。
2655 10
|
SQL 缓存 监控
数据库性能优化指南
数据库性能优化指南
|
机器学习/深度学习 人工智能 自然语言处理
AI 绘画Stable Diffusion 研究(七) 一文读懂 Stable Diffusion 工作原理(1)
AI 绘画Stable Diffusion 研究(七) 一文读懂 Stable Diffusion 工作原理
915 0
|
调度 Python
python3 协程实战(python3经典编程案例)
该文章通过多个实战案例介绍了如何在Python3中使用协程来提高I/O密集型应用的性能,利用asyncio库以及async/await语法来编写高效的异步代码。
363 0
|
存储 数据安全/隐私保护 UED