kettle开发篇-批量读取EXCEL文件

简介: 笔记

前言:


虽然目前我们大多数数据从数据库取数或者爬虫获取了,但是有些情况下我们需要对经营数据进行加工,这些数据只能给部分管理者查看,因此需要单独建立经营分析的库来存储手工的数据,而能大批量处理手工数据的地方,避免不了要去接触EXCEL。EXCEL作为办公软件的三剑客,在日常工作中出场率也太高了吧。下面来介绍怎么批量获取我们需要的数据。


一、批量获取数据的前提条件


1、公共的字段名

竟然是批量获取数据,当然这些数据的列名,基本上是长一样,这样我们才能批量将相似的数据存到对应的同一个表里面,然后用于经营分析。比如我们获取10个月的用电数据,然后这10个月的电费是分为10个EXcel存储的。EXCEL中的列名分别是用电日期、用电单位、用电度数、电价、电费。当然我们可以因为需要的改变,可以在第8 9 10个月的EXCEL表中增加抄表人、确认时间等。但他们主体都是前面说到的用电日期、用电单位、用电度数、电价、电费,只是我们的底表需要多增加两个字段来存储抄表人、确认时间。

2、相同的开始行

这个是因为,我们需要获取对应的列名做为数据流来传递数据,如果我们的列名有的存储在第一行、有的在第二行等等,此时就会因为获取不到列名导致读取数据失败。


二、批量读取EXCEL程序


转换一共包括三步,获取文件名-EXCEL输入-表输出

5.png

1、获取文件名

这一步包括指定批量获取EXCEL文件存储的位置,如图所示文件存储在D:\etl\excel_loop,然后过滤任何是EXCEL的文件,如.*.xlsx通配符为获取该文件夹下面所有的EXCEL表名。

6.png

如图所示,或者EXCEL_LOOP下面的test1/test2/test3的文件数据。

7.png

2、EXCEL输入

这个步骤主要通过前面传输过来的表名来获取对应的数据,需要注意的是,在这一步需要选择一个EXCEL来指定获取的字段名称和获取的是哪个sheet的数据。如下图所示。

image.pngimage.png

3、表输出

表输出和其他步骤都是一样的没有什么特殊的操作,到这一步就完成了EXCEL的批量获取数据了,是不是非常的简单,不需要写一行代码,只需要懂通配符的语法即可。

image.png


相关文章
|
8天前
|
存储 Java API
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
20 4
|
12天前
|
JavaScript 前端开发 数据处理
Vue导出el-table表格为Excel文件的两种方式
Vue导出el-table表格为Excel文件的两种方式
|
28天前
|
easyexcel Java UED
SpringBoot中大量数据导出方案:使用EasyExcel并行导出多个excel文件并压缩zip后下载
在SpringBoot环境中,为了优化大量数据的Excel导出体验,可采用异步方式处理。具体做法是将数据拆分后利用`CompletableFuture`与`ThreadPoolTaskExecutor`并行导出,并使用EasyExcel生成多个Excel文件,最终将其压缩成ZIP文件供下载。此方案提升了导出效率,改善了用户体验。代码示例展示了如何实现这一过程,包括多线程处理、模板导出及资源清理等关键步骤。
|
1月前
|
数据处理 Python
Python 高级技巧:深入解析读取 Excel 文件的多种方法
在数据分析中,从 Excel 文件读取数据是常见需求。本文介绍了使用 Python 的三个库:`pandas`、`openpyxl` 和 `xlrd` 来高效处理 Excel 文件的方法。`pandas` 提供了简洁的接口,而 `openpyxl` 和 `xlrd` 则针对不同版本的 Excel 文件格式提供了详细的数据读取和处理功能。此外,还介绍了如何处理复杂格式(如合并单元格)和进行性能优化(如分块读取)。通过这些技巧,可以轻松应对各种 Excel 数据处理任务。
133 16
|
1月前
|
JSON 数据格式
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
53 2
|
1月前
|
IDE 开发工具 数据安全/隐私保护
Python编程--实现用户注册信息写入excel文件
Python编程--实现用户注册信息写入excel文件
|
2月前
R Excel 文件
Excel 格式的文件主要是 xls 或 xlsx,这两种文件可以在 R 语言中导入 xlsx 库来实现直接的读取。
59 23
|
21天前
|
前端开发 JavaScript API
前端基于XLSX实现数据导出到Excel表格,以及提示“文件已经被损坏,无法打开”的解决方法
前端基于XLSX实现数据导出到Excel表格,以及提示“文件已经被损坏,无法打开”的解决方法
92 0
|
1月前
|
iOS开发 MacOS Python
Python编程-macOS系统数学符号快捷键录入并生成csv文件转换为excel文件
Python编程-macOS系统数学符号快捷键录入并生成csv文件转换为excel文件
5-22|pywintypes.com_error: (-2147352567, '发生意外。', (0, 'Microsoft Office Excel', 'Excel 无法打开文件“
5-22|pywintypes.com_error: (-2147352567, '发生意外。', (0, 'Microsoft Office Excel', 'Excel 无法打开文件“