数据对接—kettle使用之六-阿里云开发者社区

开发者社区> 大数据> 正文
登录阅读全文

数据对接—kettle使用之六

简介:

前面介绍了表输入的插件,我们可以用它来查询数据库表里的数据,那如果数据不在数据库里我们是不是没没有办法获取了呢?答案是否定的,这个软件还提供了其它的插件可以让我们轻松的获取excel、xml、文本文件等文件里的数据 ,下面我们就一起来简单的了解一下这些插件:

文本文件输入:

1、 没有空行:不往下一步骤发送空行

2、 输出包括文件名:输出包含文件名字段

3、 输出包含行数:输出字段包含行号

4、 格式:可以是DOS、 Unix或混合模式。UNIX行终止可以是回车、DOS是回车或换行。混合模式则不验证。

5、 编码方式:默认编码方式。Unicode编码方式有Utf-8,utf-16

6、 记录数量限制:设置读取记录的行数,0表示所有的。

7、 解析日期时是否严格要求:启用时1月32将变为2月1号

8、 错误处理标签:当错误发生时,错误处理标签可以允许你指定这个步骤将重新做些什么。

9、 忽略错误

10、跳过错误行:如果不跳过错误行,解析错误字段将是空的。

11、错误计数字段:在输出流中增加一个字段,这个字段将包含错误发生的行数。

12、错误字段字段名:输出流增加字段,该字段包含错误发生的字段名称。

13、错误文本字段:输出流增加字段,该字段包含解析错误发生字段的描述。

14、警告文件目录:当警告发生时,文件将被放进该目录,文件名为:文件名。<日期时间>.<错误文件扩展>

15、错误文件目录:当错误发生时,文件将被放进该目录,文件名为:文件名.<日期时间>.<错误文件扩展>

16、失败行数文件目录:当解析发生错误,行号将被放进该目录,文件名将是:文件名.<日期时间>.<错误行扩展>

17、过滤标签:可以用来指定文件文件中要过滤的行。

18、过滤字符串:搜索字符串,将符合条件的行从输出中去掉。

19、过滤器位置: 0:起始位置。不填(<0):表示搜索整个字符。

20、停止在过滤器:如果想在文本文件遇到过滤字符时停止处理,就指定“Y”。

EXCEL输入

1、  工作表名称

2、  起始行 :开始读取的行。

3、  起始列:开始读取的列。

4、  头部:检查工作表是否指定了一个头部行。

5、  非空记录:检查是否不需要空行输出。

6、  停在空记录:当遇空行时停止读取。

7、  文件名称字段:步骤输出指定一个包含文件名的字段。

8、  工作表名称字段:步骤输出指定一个包含工作表名称的字段。

9、  行号列:指定输出行号列字段名称。

XML输入

1、  Loop XPath:选择/Rows/Row

2、  Ignore comments:忽略注释

3、  Validate XML:验证XML ,一般不验证

4、  Ignore empty file:忽略空文件

5、  Include filename in output:输出步骤包含文件名字段

6、  Rownum in output:输出包含行号字段。

Cube输入

         从二进制KettleCube文件中读取数据行

还有很多数据输入插件,比如:Microsoft Access Input、Mondrian Input、LDIF Input、Email messages input、MongoDB Input、Property Input、RSS Input、Json Input、OLAP Input、XBase输入等等,这里就不一一介绍了,如果用到了我们可以去深入学习一下,它们的图标如下图:

总结:上面的这些插件基本上可以满足我们获取各种信息来源的数据,通过脚本处理我们还可以将有用的数据输出到指定好的文件中,下一篇我们继续了解输出插件。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享: