Kettle数据采集和预处理工具的认知和基本应用

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: Kettle数据采集和预处理工具的认知和基本应用

未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计2687字,阅读大概需要3分钟

一、 任务描述

本实验任务主要完成基于Ubuntu环境的Ketlle数据采集工具的介绍和简单应用;并且增加对数据采集和预处理工具的了解。

 通过完成本实验任务,要求学生对数据采集有一定的了解,为后续学习奠定基础。也为了掌握从事数据采集工程师等岗位的技能基础。


二、 任务目标

完成实验实例,从mysql导出到excel完成简单的数据采集和处理。


三、 任务环境

Unbunt 、 kettle、mysql


四、 任务分析

数据采集(DAQ)又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析、处理。

 数据预处理的本质属于数据的“深度采集“,是信息数据的智能分析处理。利用网页内容分析、自动分类、自动聚类、自动排重、自动摘要、主题词抽取等智能化处理技术,对采集到的海量数据信息进行挖掘整合,最终按照统一规范的组织形式存储到DSM数据仓库,供系统体系结构分析研究使用。

常用的有工具有 flume、kettle等;

 flume (日志收集系统)

 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。

 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。


♥ 知识链接

 数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。

 数据预处理的工作质量很大程度上决定最终服务数据的质量,是DSM类项目( 如,DSM项目全过程管理、有序用电方案评价等)深度分析的重要基础。在数据智能分析处理中,主要包括:

1)自动分类,用于对采集内容的自动分类;

2)自动摘要,用于对采集内容的自动摘要;

3)自动排重,用于对采集内容的重复性判定。< input>元素是最重要的表单元素。


五、 任务实施

步骤1、打开kettle

鼠标右键桌面,弹出窗口中点击【Open Terminal Here】打开终端,在终端窗口执行【/simple/data-integration/spoon.sh】;如图1所示:


8c53c3ea2c8a463abd574dae5ccef3fc.png


图1 打开kettle


步骤2、采集mysql数据

点击【File→New→Transformation】新建一个【转换项目】;如图2所示:

fdf753f28f6a4b40be1c123b90c7389e.png



图2 新建项目

显示的都是工具目录;具体应用可自行实践;本实验会用到【Input】和【Output】;如图3所示:


588ff2c2da084b939691cdec4999f6b8.png


图3 查看目录功能

【Input】是输入数据的工具目录;如图4所示:


4193efdc0fac4e0889421e3776bf4175.png


图4 查看输入功能目录

【Output】是输出工具的数出目录;如图5所示:


46139eb5d2f74a11bd6f4a7a7004239b.png


图5 查看输出功能目录

从【Input】中选取【Tableinput】,从【Output】中选取【Microsoft Excel Output】;读取MySQL的表中数据到Excel中;如图6所示:


acec953554a84e708723e8f6ba3809c1.png


图6 构建一个项目

打开【Table input】,定义个名称为【mysql】;点击【New】新建一个mysql连接;如图7所示:


72f091968bfd4e2a8f0f86123a64c675.png


图7 构建数据库连接

打开终端,执行【service mysql start】启动mysql;定义个连接名称【mysql】;选择Connection Type : 为MySQL; 输入Host Name: 127.0.0.1 (localhost)、Database Name: tangrendb 、 User Name : tangren 、 Password : 123456; 点击【Test】 测试连接状态成功或者失败;成功过后点击【OK】;如图8所示:


cc297cde11aa470eb392cd4a563869df.png


图8 输入数据库参数

点击【Get SQL select statement…】选择【tangrentable】表,点击【OK】,如果弹出窗口,点击【yes】;如图9所示:

b2758aa63e204b4fbc2c4dabba747ef9.png



图9 查看数据库表

点击【Preview】浏览表中数据;可自行输入查看的行数;如图10所示



43121e8a6bc844b6a0712a6bd9969bae.png

图10 设置浏览行数

看完点击【Close】,然后在 【Table input】点击【OK】;如图11所示:


0001cc59f0ec480386bf9438e3229bd6.png


图11 浏览数据

打开【Microsoft Excel Output】,定义个名称【OutputExcel】,点击【Browse…】(去掉后缀名),在Extension添加后缀名【xlsx】(如果在Filename中有后缀名,这里可以不写),点击【Show filename(s)…】,查看文件存储路径和文件名;点击【Ok】,(图中的数据

存储路径如果不存在请创建或者自定义一个)。如图12所示:

bedd9be46f794fa480a7f0bdab262f12.png



图12 配置文件保存属性

点击图中红框运行按钮,弹出对话框点击【Run】;如图13所示:


efcbf8b0bbe94dbf973eef09d7d3d0a7.png


图13 运行项目

项目保存路径和名称设置,选择kettle_data,名称为【kettleDemo】,点击【OK】;如图14所示:


7864ee8cfa3840d69050d9c11e6670ce.png


图14 保存项目

在【Execution Results】中出现【Finished】;说明运行成功;如图15所示:


a76901c3e2d6498888e24c05de127d49.png


图15 运行结果

使用终端查看数据文件结果;如图16所示:

682a8e19f53a4df086ee652436b831fc.png



图16 查看结果


♥ 温馨提示

Kettle家族


Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen。

SPOON 允许你通过图形界面来设计ETL转换过程(Transformation)。

PAN 允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。

CHEF 允许你创建任务(Job)。 任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。

KITCHEN 允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。

d227ecad03494ec69ce0aae09679854d.png

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
20天前
|
数据采集 存储 消息中间件
构建高效数据管道:从数据采集到分析的实战指南
在数据的海洋中航行,我们需要精准而高效的工具来捕捉、传输和处理信息。本文将引导你穿越技术性文章的迷雾,用简洁明了的语言和代码示例,展现如何打造一个高性能的数据管道。无论你是初学者还是资深开发者,这篇文章都将为你提供宝贵的知识财富。让我们一起解锁数据的力量,探索其背后的奥秘。
44 15
|
6月前
|
数据采集 传感器 算法
数据采集与预处理
【6月更文挑战第21天】数据采集与预处理。
128 4
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
65 0
【R语言实战】——fGARCH包在金融时序上的模拟应用
【R语言实战】——fGARCH包在金融时序上的模拟应用
|
数据采集 数据挖掘 数据处理
用ChatGPT写一个数据采集程序
既然ChatGPT可以理解并生成代码,那么自然而然,它的作用不仅仅是帮助学习代码,同样也可以直接用在实际的软件开发当中。
|
SQL Oracle 关系型数据库
「集成架构」2020年最好的15个ETL工具(第二部)
「集成架构」2020年最好的15个ETL工具(第二部)
|
SQL 数据采集 文字识别
|
JavaScript 前端开发 数据挖掘
《R语言游戏数据分析与挖掘》一2.1 开发环境准备和快速入门
本节书摘来华章计算机《R语言游戏数据分析与挖掘》一书中的第2章 ,第2.1节,谢佳标 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1951 0
|
机器学习/深度学习 监控 数据可视化
《构建实时机器学习系统》一3.4 数据分析的三个要点
本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第3章,第3.4节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1161 0

热门文章

最新文章