前面介绍了表输入的插件,我们可以用它来查询数据库表里的数据,那如果数据不在数据库里我们是不是没没有办法获取了呢?答案是否定的,这个软件还提供了其它的插件可以让我们轻松的获取excel、xml、文本文件等文件里的数据 ,下面我们就一起来简单的了解一下这些插件:
文本文件输入:
1、 没有空行:不往下一步骤发送空行
2、 输出包括文件名:输出包含文件名字段
3、 输出包含行数:输出字段包含行号
4、 格式:可以是DOS、 Unix或混合模式。UNIX行终止可以是回车、DOS是回车或换行。混合模式则不验证。
5、 编码方式:默认编码方式。Unicode编码方式有Utf-8,utf-16
6、 记录数量限制:设置读取记录的行数,0表示所有的。
7、 解析日期时是否严格要求:启用时1月32将变为2月1号
8、 错误处理标签:当错误发生时,错误处理标签可以允许你指定这个步骤将重新做些什么。
9、 忽略错误
10、跳过错误行:如果不跳过错误行,解析错误字段将是空的。
11、错误计数字段:在输出流中增加一个字段,这个字段将包含错误发生的行数。
12、错误字段字段名:输出流增加字段,该字段包含错误发生的字段名称。
13、错误文本字段:输出流增加字段,该字段包含解析错误发生字段的描述。
14、警告文件目录:当警告发生时,文件将被放进该目录,文件名为:文件名。<日期时间>.<错误文件扩展>
15、错误文件目录:当错误发生时,文件将被放进该目录,文件名为:文件名.<日期时间>.<错误文件扩展>
16、失败行数文件目录:当解析发生错误,行号将被放进该目录,文件名将是:文件名.<日期时间>.<错误行扩展>
17、过滤标签:可以用来指定文件文件中要过滤的行。
18、过滤字符串:搜索字符串,将符合条件的行从输出中去掉。
19、过滤器位置: 0:起始位置。不填(<0):表示搜索整个字符。
20、停止在过滤器:如果想在文本文件遇到过滤字符时停止处理,就指定“Y”。
EXCEL输入
1、 工作表名称
2、 起始行 :开始读取的行。
3、 起始列:开始读取的列。
4、 头部:检查工作表是否指定了一个头部行。
5、 非空记录:检查是否不需要空行输出。
6、 停在空记录:当遇空行时停止读取。
7、 文件名称字段:步骤输出指定一个包含文件名的字段。
8、 工作表名称字段:步骤输出指定一个包含工作表名称的字段。
9、 行号列:指定输出行号列字段名称。
XML输入
1、 Loop XPath:选择/Rows/Row
2、 Ignore comments:忽略注释
3、 Validate XML:验证XML ,一般不验证
4、 Ignore empty file:忽略空文件
5、 Include filename in output:输出步骤包含文件名字段
6、 Rownum in output:输出包含行号字段。
Cube输入
从二进制KettleCube文件中读取数据行
还有很多数据输入插件,比如:Microsoft Access Input、Mondrian Input、LDIF Input、Email messages input、MongoDB Input、Property Input、RSS Input、Json Input、OLAP Input、XBase输入等等,这里就不一一介绍了,如果用到了我们可以去深入学习一下,它们的图标如下图:
总结:上面的这些插件基本上可以满足我们获取各种信息来源的数据,通过脚本处理我们还可以将有用的数据输出到指定好的文件中,下一篇我们继续了解输出插件。