kettle开发篇-读取CSV文件

简介: 笔记

60.png

前言:

现在很多系统没有存储到数据库中,比如实验室的检测设备、近红外、粒度分析仪等,但是这些数据对企业产品质量的评估有不可或缺的影响。通常这些数据只能通过导出为CSV格式的文件存储起来,由于CSV文件本身的行数限制和性能达不到数据分析的要求,因此需要我们将CSV文件的数据存储至数据库里面。本文介绍通过kettle来存储CSV的文件的数据,并在入库前将异常数据进行清洗。


一、什么是CSV文件


CSV (逗号分隔值文件格式)

逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。通常都是纯文本文件。建议使用WORDPAD或是记事本来开启,再则先另存新档后用EXCEL开启,也是方法之一。

CSV文件格式的通用标准并不存在,但是在RFC 4180中有基础性的描述。使用的字符编码同样没有被指定,但是bitASCII是最基本的通用编码。

CSV是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。最广泛的应用是在程序之间转移表格数据,而这些程序本身是在不兼容的格式上进行操作的(往往是私有的和/或无规范的格式)。因为大量程序都支持某种CSV变体,至少是作为一种可选择的输入/输出格式。

从CSV文件的定义来看,我们关键要了解CSV文件的分隔符,常见的分隔符是逗号和制表符。但是通常也存在用空格来分隔的,这种就非常不建议,特别容易导致数据读取错误或者失败,因为如果连续存在两个或者多个不确定的空格时,容易导致数据读取失败。


二、kettle读取CSV文件


最终转换的效果图长这样,里面的CSV文件输入、字符串替换、增加常量、过滤记录、插入/更新5个步骤,下面我详细说说各个步骤的作用机制。

61.png

1、CSV文件输入

这个步骤用来读取CSV文件的数据,这里面最重要的是输入分隔符,默认我们输入为逗号,如果我们不清楚我们的CSV文件是通过什么分隔的,我们可以采用记事本打开CSV文件就可以轻松查看到对应的分隔符了。默认第一行的名称作为我们的列名,当然也可以指定哪一行作为列名。


62.pngimage.png

2、字符串替换

这一步的主要目的是替换掉我们不需要的数据,比如"""3-2的平均值""",实际我们存储至数据库的时候只需要3-2的平均值,因此需要将不需要的字符串替换掉。

image.png

3、增加常量

这一步的目的是增加,CSV里面没有的数据,比如车间、基地、公司等,一起存入数据库便于按不同维度来区分。

image.png

4、过滤记录

如上图CSV文件所示,CSV文件里面存在很多重复的标题行和空行及类似的错误数据,这些都需要我们进行清洗后入库。如图所示过滤了标题行和为空的数据行。


image.png

5、插入更新

将我们读取的数据按插入更新的方式保存至数据库中。1.png


相关文章
|
数据库
kettle开发篇-记录集连接
kettle开发篇-记录集连接
304 0
|
12月前
|
Java
ETL工具 Kettle 中 kettle循环传递变量_(最简单的方法)
本文详细介绍了如何在Kettle工具中使用循环传递变量,通过示例展示了如何将movies表数据按月插入到ods_movies表,涉及新建转换、获取变量、作业配置和执行,呈现了一个嵌套作业结构.
1572 3
|
数据采集 Oracle 关系型数据库
kettle开发-循环驱动作业
kettle开发-循环驱动作业
502 0
|
SQL 前端开发 JavaScript
kettle开发-超好用自定义数据处理组件
kettle开发-超好用自定义数据处理组件
521 0
|
11月前
|
UED
视频格式转换与DRM解除
随着流媒体平台的普及,用户对视频下载和转换工具的需求不断增加。本文介绍了几款优秀工具,如CleverGet、PlayOn Cloud、CocCut、StreamGaGa和PlayOn Desktop,帮助用户更好地下载、转换和管理视频内容。这些工具不仅提升了视频获取的便利性,还提供了多种选择,满足不同需求。使用时请确保合法合规。
|
Java 开发者
Java“类 Y 中的方法 X 不能应用于给定类型”解决
在Java中遇到“类Y中的方法X无法应用于给定类型”的错误时,通常是因为方法调用时的参数类型与定义不符。解决此问题需检查方法签名,确保传递的参数类型正确无误,或使用显式类型转换以匹配方法所需的参数类型。这种错误提示帮助开发者及时修正类型不匹配的问题。
571 1
|
SQL 关系型数据库 MySQL
使用OceanBase进行大规模数据迁移的最佳实践
【8月更文第31天】随着业务的不断扩展,数据迁移成为了企业日常运营中不可避免的任务之一。对于那些正在从传统的数据库系统向分布式数据库系统过渡的企业来说,数据迁移尤为重要。OceanBase 是一个由阿里巴巴集团开发的高性能分布式关系数据库,它以其高可用性、水平扩展能力和成本效益而闻名。本文将探讨如何使用 OceanBase 进行大规模数据迁移,并提供相关的最佳实践和代码示例。
1024 1
|
SQL Oracle 关系型数据库
[oracle]使用impdp导入数据时卡在视图
[oracle]使用impdp导入数据时卡在视图
495 2
|
机器学习/深度学习 分布式计算 大数据
MaxCompute 2.0:开源系统的集成与创新
增强实时处理能力:进一步加强与Flink等实时处理框架的合作。 强化机器学习支持:提供更多内置的机器学习算法和工具。 增强数据治理功能:提供更完善的数据质量和安全治理方案。
|
Linux Windows
Windows查找监听端口对应的进程及其路径
Windows查找监听端口对应的进程及其路径
317 0