无事来学学--Kettle中输入,输出组件的使用(一)

简介: CSV文件 一种带有固定格式的文本文件。注意:获取字段的时候可以调整自己的字段类型,格式,满足自己的需求哦。

输入组件


kettle里面的输入,就是用来抽取数据或生成数据,是ETL操作的E。


CSV文件

一种带有固定格式的文本文件。注意:获取字段的时候可以调整自己的字段类型,格式,满足自己的需求哦。

网络异常,图片无法展示
|
网络异常,图片无法展示
|

文本文件输入,提取日志信息的数据是开发常见的操作,日志信息基本都是文本类型。


操作实例:

首先要获取到要抽取的文本文件哦。

网络异常,图片无法展示
|

网络异常,图片无法展示
|


可以选择自己的分隔符哦!

网络异常,图片无法展示
|

网络异常,图片无法展示
|


获取字段,如下所示:

网络异常,图片无法展示
|

网络异常,图片无法展示
|


微软的Excel目前有两种后缀名的文件分别为:xls和xlsx。注意:xls:2007年之前,xlsx:2007年之后。

网络异常,图片无法展示
|

网络异常,图片无法展示
|


可以选择自己的Sheet页。

网络异常,图片无法展示
|

网络异常,图片无法展示
|


获取到Excel输入的字段,可以手动调整字段类型。

网络异常,图片无法展示
|

网络异常,图片无法展示
|


多文件合并,数据往往也是以多个文件的形式出现,有的数据还会分散在多个子文件夹。所以合并数据也是开发中非常常见的操作。

网络异常,图片无法展示
|

网络异常,图片无法展示
|


XML 指可扩展标记语言(EXtensible Markup Language)


XML 被设计用来传输和存储数据。

网络异常,图片无法展示
|
网络异常,图片无法展示
|


XPath即为XML路径语言(XML Path Language

它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。


XPath-语法

选取节点 XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式:

网络异常,图片无法展示
|
网络异常,图片无法展示
|


XPath,路径表达式,示例,如下所示:

网络异常,图片无法展示
|
网络异常,图片无法展示
|


Get data from XML组件,具体使用如下所示:

网络异常,图片无法展示
|

网络异常,图片无法展示
|


获取XML文档的所有路径,如果需要考虑命名空间,可以进行勾选,如下所示:

网络异常,图片无法展示
|

网络异常,图片无法展示
|


字段

这里获取字段,如果获取不到你想要的结果,需要自己手动编写名称,XML路径,切记,XML路径是相对于自己最终获取数据的路径,节点、结果类型、类型等等自己可以自行选择即可。

网络异常,图片无法展示
|

网络异常,图片无法展示
|


生成记录

数据仓库中绝大多数的数据都是业务系统生成的动态数据,但是其中一部分维度数据不是动态的,比如:日期维度。静态维度数据就可以提前生成。

网络异常,图片无法展示
|
网络异常,图片无法展示
|


8、JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。JSON核心概念:数组、对象、属性。数组:[ ]、对象:{ }、属性:key:value。

JSONPath类似于XPath在xml文档中的定位,JsonPath表达式通常是用来路径检索或设置Json的。其表达式可以接受“dot–notation”(点记法)和“bracket–notation”(括号记法)格式。

1)、点记法:.store.book[0].title。推荐点记法哦。

2)、括号记法:[‘store’][‘book’][0][‘title’]。


JSONPath-操作符,如下所示:

网络异常,图片无法展示
|

网络异常,图片无法展示
|


目录
相关文章
|
XML SQL JSON
大数据 ETL 处理工具 Kettle 常用输入输出
相比现在流行大数据技术,你可能觉得 Kettle 的使用场景太少了,或者没有必要使用这么个玩意儿,查看了下 github kettle 发现最近也有一些更新,另外,对于没有编程经验的数据使用人员,使用非常简单的 Kettle,通过图形界面设计实现做什么业务,无需写代码去实现,就可以做一些实验,比如:抓取网站上的股票数据、外汇信息等等。 Kettle 支持很多种输入和输出格式,包括文本文件,数据表,以及数据库引擎。总之,Kettle 强大的输入、输出、转换功能让你非常方便的操作数据。
kettle开发篇-行转列
kettle开发篇-行转列
1249 0
|
存储
kettle开发篇-列转行
kettle开发篇-列转行
1090 0
|
SQL 前端开发 JavaScript
kettle开发-超好用自定义数据处理组件
kettle开发-超好用自定义数据处理组件
1227 0
|
Web App开发 Ubuntu 安全
Parallels Desktop18最新版虚拟机功能特性介绍
总之,如果你正使用Mac电脑,并且要使用其他系统平台的软件,尤其是Windows软件的话,那么使用虚拟机将会是比使用 BootCamp安装原生双系统更加方便,功能更丰富!
1549 0
|
机器学习/深度学习 人工智能 自然语言处理
3步,0代码!一键部署DeepSeek-V3、DeepSeek-R1
3步,0代码!一键部署DeepSeek-V3、DeepSeek-R1
446 0
|
SQL 存储 缓存
因接触partition by而对PostgreSQL explain有了一个小小的认识
因接触partition by而对PostgreSQL explain有了一个小小的认识
960 0
因接触partition by而对PostgreSQL explain有了一个小小的认识
|
canal 算法 安全
5大主流方案对比:MySQL千亿级数据线上平滑扩容实战 上
5大主流方案对比:MySQL千亿级数据线上平滑扩容实战 上
|
Java
实现java执行kettle并传参数
实现java执行kettle并传参数
355 1