使用kettle采集excel表格中的数据

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
云数据库 RDS MySQL Serverless,价值2615元额度,1个月
简介: 使用kettle采集excel表格中的数据

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计2977字,阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的使用kettle采集excel表格中的数据的工作。通过完成本实验任务,要求学生熟练掌握使用kettle采集excel表格中的数据的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。


二、任务目标

1、掌握使用kettle采集excel表格中的数据


三、任务环境

Ubuntu16.04、Java1.8、Kettle7.1


四、任务分析

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。


五、 任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面,从弹出菜单中选择【Open Terminal Here】命令 打开终端。

 启动kettle。

ff57da6aeaff489ca3b727f10b533a26.png



图1 启动kettle


步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations即可),然后选择”Design”栏,将”Input”下的”Get File Names”、”Microsoft Excel Input”以及”Output”栏下的”Table output”三个图标拖进工作区。按住Shift键,鼠标拖拽”Get File Names”图标到”Microsoft Excel Input”图标上,产生连线。同理”Table output”的线也连上。注意箭头方向。如图2所示


202d3dd473714f7f9ff86bb016da46de.png


图2 创建Transformmations

 设置”Get File Names”相关内容(双击图表即可)。如图3所示。


d28888e4223b4be9937bb2b963caddd9.png


图3 设置”Get File Names”相关内容

 显示查看能否显示出文件名列表,点击”Show filename(s)”按钮,能显示出来即可,查看完关闭即可,最后点击”OK。如图4所示。


3af181c7794b49198aa0e1217c3264c4.png


图4 查看文件

 设置”Microsoft Excel Input”相关内容(双击即可)。如图5所示。


d40405460d514207a2f4c77f4c4fd9c0.png


图5 设置”Microsoft Excel Input”

 选择文件类型及文件夹中任意一个表的路径(增加之后列表中就出现了新增的路径)。如图6-8所示。


4642becc6c754fa0b622097cb8687b91.png


图6 指定Sheet页

6bc1f9eb8b2f4c10a76e8f804a90c5b6.png



图7 选中Sheet

d37be875f4294c28a85693fdb62749aa.png



图8 查看字段

 获取字段名,设置完成后点击”OK”就可以了。如图9所示。


0982dbfb88084f4ba84122387e056f65.png


图9 获取字段名

 开启mysql服务。如图10所示。


a031732a1e4b4332894bb7bdac09e3da.png


图10 开启mysql

 设置”Table output”相关参数,双击”Table output”即可,mysql数据库密码为”root”。如图11所示。

306e0d7396c448a8bcbf5114b4870c7a.png



图11 设置”Table output”

 设置目标表。如图12所示。

b9c1070e4c4e49baa23ba883be40f709.png



图12 设置目标表

 设置字段映射,最后点击”OK”完成整个设置。如图13所示。


c8383b66b8b647c8b362872a841f92cc.png


图13 设置字段映射

步骤3、运行任务

 运行,将文件夹中Excel表格,批量导入到数据库。如图14-15所示。


9297ff9593a94d5dbc7c8df206bcc9af.png


图14 运行任务


9297ff9593a94d5dbc7c8df206bcc9af.png


图15 保存任务

 查看运行结果。如图16所示。


f7137f870e3b4119a82930b58362cd17.png


图16 查看运行结果

 重新打开一个终端,进入mysql,切换到kettle数据库,检验记录是否导入。如图17-18所示。


59dc5cb694324e01beed3cedef8d84a9.png


图17 查看表


dd2ac27dd1074c2aae2c6351fd2770b9.png


图18 查看表数据


♥ 知识链接

kettle简介

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。


♥ 温馨提示

Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration,Kettle 本意是水壶的意思,表达了数据流的含义。


相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
SQL 数据库连接 数据库
【SQL Server】2. 将数据导入导出到Excel表格当中
【SQL Server】2. 将数据导入导出到Excel表格当中
47 0
|
1月前
|
SQL 缓存 easyexcel
面试官问10W 行级别数据的 Excel 导入如何10秒处理
面试官问10W 行级别数据的 Excel 导入如何10秒处理
178 0
|
2月前
|
Java 数据库
SpringBoot定时将数据库表生成Excel表格
SpringBoot定时将数据库表生成Excel表格
28 0
|
2月前
|
安全 Java 数据库连接
jdbc解析excel文件,批量插入数据至库中
jdbc解析excel文件,批量插入数据至库中
21 0
|
2月前
|
Java API Apache
使用AOP+反射实现Excel数据的读取
使用AOP+反射实现Excel数据的读取
|
15天前
|
Java Apache
java读取excel数据案例
Java代码示例使用Apache POI库读取Excel(example.xlsx)数据。创建FileInputStream和XSSFWorkbook对象,获取Sheet,遍历行和列,根据单元格类型(STRING, NUMERIC, BOOLEAN)打印值。需引入Apache POI库并确保替换文件路径。
11 1
|
17天前
|
JavaScript 前端开发 BI
原生html—摆脱ps、excel 在线绘制财务表格加水印(html绘制表格js加水印)
原生html—摆脱ps、excel 在线绘制财务表格加水印(html绘制表格js加水印)
20 1
|
1月前
|
JavaScript
【sgExcelGrid】自定义组件:简单模拟Excel表格拖拽、选中单元格、横行、纵列、拖拽圈选等操作
【sgExcelGrid】自定义组件:简单模拟Excel表格拖拽、选中单元格、横行、纵列、拖拽圈选等操作
【sgExcelGrid】自定义组件:简单模拟Excel表格拖拽、选中单元格、横行、纵列、拖拽圈选等操作
|
1月前
|
开发工具
如何使用 Excel VBA 编程,点击按钮后跳转到有数据填充的最末一行
如何使用 Excel VBA 编程,点击按钮后跳转到有数据填充的最末一行
21 2