使用kettle采集excel表格中的数据

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介: 使用kettle采集excel表格中的数据

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计2977字,阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的使用kettle采集excel表格中的数据的工作。通过完成本实验任务,要求学生熟练掌握使用kettle采集excel表格中的数据的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。


二、任务目标

1、掌握使用kettle采集excel表格中的数据


三、任务环境

Ubuntu16.04、Java1.8、Kettle7.1


四、任务分析

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。


五、 任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面,从弹出菜单中选择【Open Terminal Here】命令 打开终端。

 启动kettle。

ff57da6aeaff489ca3b727f10b533a26.png



图1 启动kettle


步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations即可),然后选择”Design”栏,将”Input”下的”Get File Names”、”Microsoft Excel Input”以及”Output”栏下的”Table output”三个图标拖进工作区。按住Shift键,鼠标拖拽”Get File Names”图标到”Microsoft Excel Input”图标上,产生连线。同理”Table output”的线也连上。注意箭头方向。如图2所示


202d3dd473714f7f9ff86bb016da46de.png


图2 创建Transformmations

 设置”Get File Names”相关内容(双击图表即可)。如图3所示。


d28888e4223b4be9937bb2b963caddd9.png


图3 设置”Get File Names”相关内容

 显示查看能否显示出文件名列表,点击”Show filename(s)”按钮,能显示出来即可,查看完关闭即可,最后点击”OK。如图4所示。


3af181c7794b49198aa0e1217c3264c4.png


图4 查看文件

 设置”Microsoft Excel Input”相关内容(双击即可)。如图5所示。


d40405460d514207a2f4c77f4c4fd9c0.png


图5 设置”Microsoft Excel Input”

 选择文件类型及文件夹中任意一个表的路径(增加之后列表中就出现了新增的路径)。如图6-8所示。


4642becc6c754fa0b622097cb8687b91.png


图6 指定Sheet页

6bc1f9eb8b2f4c10a76e8f804a90c5b6.png



图7 选中Sheet

d37be875f4294c28a85693fdb62749aa.png



图8 查看字段

 获取字段名,设置完成后点击”OK”就可以了。如图9所示。


0982dbfb88084f4ba84122387e056f65.png


图9 获取字段名

 开启mysql服务。如图10所示。


a031732a1e4b4332894bb7bdac09e3da.png


图10 开启mysql

 设置”Table output”相关参数,双击”Table output”即可,mysql数据库密码为”root”。如图11所示。

306e0d7396c448a8bcbf5114b4870c7a.png



图11 设置”Table output”

 设置目标表。如图12所示。

b9c1070e4c4e49baa23ba883be40f709.png



图12 设置目标表

 设置字段映射,最后点击”OK”完成整个设置。如图13所示。


c8383b66b8b647c8b362872a841f92cc.png


图13 设置字段映射

步骤3、运行任务

 运行,将文件夹中Excel表格,批量导入到数据库。如图14-15所示。


9297ff9593a94d5dbc7c8df206bcc9af.png


图14 运行任务


9297ff9593a94d5dbc7c8df206bcc9af.png


图15 保存任务

 查看运行结果。如图16所示。


f7137f870e3b4119a82930b58362cd17.png


图16 查看运行结果

 重新打开一个终端,进入mysql,切换到kettle数据库,检验记录是否导入。如图17-18所示。


59dc5cb694324e01beed3cedef8d84a9.png


图17 查看表


dd2ac27dd1074c2aae2c6351fd2770b9.png


图18 查看表数据


♥ 知识链接

kettle简介

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。


♥ 温馨提示

Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration,Kettle 本意是水壶的意思,表达了数据流的含义。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
4月前
|
Python
如何根据Excel某列数据为依据分成一个新的工作表
在处理Excel数据时,我们常需要根据列值将数据分到不同的工作表或文件中。本文通过Python和VBA两种方法实现该操作:使用Python的`pandas`库按年级拆分为多个文件,再通过VBA宏按班级生成新的工作表,帮助高效整理复杂数据。
|
4月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
6月前
|
存储 安全 大数据
网安工程师必看!AiPy解决fscan扫描数据整理难题—多种信息快速分拣+Excel结构化存储方案
作为一名安全测试工程师,分析fscan扫描结果曾是繁琐的手动活:从海量日志中提取开放端口、漏洞信息和主机数据,耗时又易错。但现在,借助AiPy开发的GUI解析工具,只需喝杯奶茶的时间,即可将[PORT]、[SERVICE]、[VULN]、[HOST]等关键信息智能分类,并生成三份清晰的Excel报表。告别手动整理,大幅提升效率!在安全行业,工具党正碾压手动党。掌握AiPy,把时间留给真正的攻防实战!官网链接:https://www.aipyaipy.com,解锁更多用法!
|
3月前
|
移动开发 JavaScript
(H5查看CAD)网页CAD提取图纸表格到excel
本文介绍如何通过自定义MxCAD插件,在Web端智能识别CAD图纸中的表格,实现自动合并与高效导出至Excel,提升数据提取效率与准确性。内容涵盖区域选择、图形识别、表格结构重建、单元格合并及内容导出等关键技术,适用于工程图纸数据自动化处理场景。
|
4月前
|
Python
将Excel特定某列数据删除
将Excel特定某列数据删除
|
8月前
|
JavaScript 前端开发 数据可视化
20.6K star!Excel级交互体验!这款开源Web表格神器绝了!
Handsontable 是一款功能强大的 JavaScript 数据表格组件,提供类 Excel 的交互体验。支持实时协作、数据绑定、公式计算等企业级功能,可轻松集成到 React/Vue/Angular 等主流框架。
1535 11
|
9月前
|
分布式计算 Hadoop 大数据
从Excel到Hadoop:数据规模的进化之路
从Excel到Hadoop:数据规模的进化之路
205 10
|
8月前
|
人工智能 数据可视化 前端开发
Probly:开源 AI Excel表格工具,交互式生成数据分析结果与可视化图表
Probly 是一款结合电子表格功能与 Python 数据分析能力的 AI 工具,支持在浏览器中运行 Python 代码,提供交互式电子表格、数据可视化和智能分析建议,适合需要强大数据分析功能又希望操作简便的用户。
1102 2
|
11月前
|
存储 Java easyexcel
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。
|
11月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
2025 10
下一篇
oss云网关配置