使用kettle采集excel表格中的数据

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 使用kettle采集excel表格中的数据

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计2977字,阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的使用kettle采集excel表格中的数据的工作。通过完成本实验任务,要求学生熟练掌握使用kettle采集excel表格中的数据的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。


二、任务目标

1、掌握使用kettle采集excel表格中的数据


三、任务环境

Ubuntu16.04、Java1.8、Kettle7.1


四、任务分析

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。


五、 任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面,从弹出菜单中选择【Open Terminal Here】命令 打开终端。

 启动kettle。

ff57da6aeaff489ca3b727f10b533a26.png



图1 启动kettle


步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations即可),然后选择”Design”栏,将”Input”下的”Get File Names”、”Microsoft Excel Input”以及”Output”栏下的”Table output”三个图标拖进工作区。按住Shift键,鼠标拖拽”Get File Names”图标到”Microsoft Excel Input”图标上,产生连线。同理”Table output”的线也连上。注意箭头方向。如图2所示


202d3dd473714f7f9ff86bb016da46de.png


图2 创建Transformmations

 设置”Get File Names”相关内容(双击图表即可)。如图3所示。


d28888e4223b4be9937bb2b963caddd9.png


图3 设置”Get File Names”相关内容

 显示查看能否显示出文件名列表,点击”Show filename(s)”按钮,能显示出来即可,查看完关闭即可,最后点击”OK。如图4所示。


3af181c7794b49198aa0e1217c3264c4.png


图4 查看文件

 设置”Microsoft Excel Input”相关内容(双击即可)。如图5所示。


d40405460d514207a2f4c77f4c4fd9c0.png


图5 设置”Microsoft Excel Input”

 选择文件类型及文件夹中任意一个表的路径(增加之后列表中就出现了新增的路径)。如图6-8所示。


4642becc6c754fa0b622097cb8687b91.png


图6 指定Sheet页

6bc1f9eb8b2f4c10a76e8f804a90c5b6.png



图7 选中Sheet

d37be875f4294c28a85693fdb62749aa.png



图8 查看字段

 获取字段名,设置完成后点击”OK”就可以了。如图9所示。


0982dbfb88084f4ba84122387e056f65.png


图9 获取字段名

 开启mysql服务。如图10所示。


a031732a1e4b4332894bb7bdac09e3da.png


图10 开启mysql

 设置”Table output”相关参数,双击”Table output”即可,mysql数据库密码为”root”。如图11所示。

306e0d7396c448a8bcbf5114b4870c7a.png



图11 设置”Table output”

 设置目标表。如图12所示。

b9c1070e4c4e49baa23ba883be40f709.png



图12 设置目标表

 设置字段映射,最后点击”OK”完成整个设置。如图13所示。


c8383b66b8b647c8b362872a841f92cc.png


图13 设置字段映射

步骤3、运行任务

 运行,将文件夹中Excel表格,批量导入到数据库。如图14-15所示。


9297ff9593a94d5dbc7c8df206bcc9af.png


图14 运行任务


9297ff9593a94d5dbc7c8df206bcc9af.png


图15 保存任务

 查看运行结果。如图16所示。


f7137f870e3b4119a82930b58362cd17.png


图16 查看运行结果

 重新打开一个终端,进入mysql,切换到kettle数据库,检验记录是否导入。如图17-18所示。


59dc5cb694324e01beed3cedef8d84a9.png


图17 查看表


dd2ac27dd1074c2aae2c6351fd2770b9.png


图18 查看表数据


♥ 知识链接

kettle简介

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。


♥ 温馨提示

Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration,Kettle 本意是水壶的意思,表达了数据流的含义。


相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
16天前
|
数据采集 存储 JavaScript
自动化数据处理:使用Selenium与Excel打造的数据爬取管道
本文介绍了一种使用Selenium和Excel结合代理IP技术从WIPO品牌数据库(branddb.wipo.int)自动化爬取专利信息的方法。通过Selenium模拟用户操作,处理JavaScript动态加载页面,利用代理IP避免IP封禁,确保数据爬取稳定性和隐私性。爬取的数据将存储在Excel中,便于后续分析。此外,文章还详细介绍了Selenium的基本设置、代理IP配置及使用技巧,并探讨了未来可能采用的更多防反爬策略,以提升爬虫效率和稳定性。
|
3月前
|
关系型数据库 MySQL Shell
不通过navicat工具怎么把查询数据导出到excel表中
不通过navicat工具怎么把查询数据导出到excel表中
39 0
|
13天前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
37 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
16天前
|
easyexcel Java UED
SpringBoot中大量数据导出方案:使用EasyExcel并行导出多个excel文件并压缩zip后下载
在SpringBoot环境中,为了优化大量数据的Excel导出体验,可采用异步方式处理。具体做法是将数据拆分后利用`CompletableFuture`与`ThreadPoolTaskExecutor`并行导出,并使用EasyExcel生成多个Excel文件,最终将其压缩成ZIP文件供下载。此方案提升了导出效率,改善了用户体验。代码示例展示了如何实现这一过程,包括多线程处理、模板导出及资源清理等关键步骤。
|
9天前
|
前端开发 JavaScript API
前端基于XLSX实现数据导出到Excel表格,以及提示“文件已经被损坏,无法打开”的解决方法
前端基于XLSX实现数据导出到Excel表格,以及提示“文件已经被损坏,无法打开”的解决方法
61 0
|
22天前
|
Java Apache
Apache POI java对excel表格进行操作(读、写) 有代码!!!
文章提供了使用Apache POI库在Java中创建和读取Excel文件的详细代码示例,包括写入数据到Excel和从Excel读取数据的方法。
28 0
|
2月前
|
数据采集 存储 数据挖掘
使用Python读取Excel数据
本文介绍了如何使用Python的`pandas`库读取和操作Excel文件。首先,需要安装`pandas`和`openpyxl`库。接着,通过`read_excel`函数读取Excel数据,并展示了读取特定工作表、查看数据以及计算平均值等操作。此外,还介绍了选择特定列、筛选数据和数据清洗等常用操作。`pandas`是一个强大且易用的工具,适用于日常数据处理工作。
|
3月前
|
SQL JSON 关系型数据库
n种方式教你用python读写excel等数据文件
n种方式教你用python读写excel等数据文件
|
3月前
|
人工智能 BI
用ChatGPT做excel表格真香!只需动嘴提要求和复制粘贴
用ChatGPT做excel表格真香!只需动嘴提要求和复制粘贴
|
3月前
|
存储 Java Apache