使用kettle采集并处理MongoDB数据库中的数据

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: 使用kettle采集并处理MongoDB数据库中的数据

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计1654字,阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的使用kettle采集并处理MongoDB数据库中的数据的工作。通过完成本实验任务,要求学生熟练掌握使用kettle采集并处理MongoDB数据库中的数据的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。


二、任务目标

1、掌握使用kettle采集并处理MongoDB数据库中的数据


三、任务环境

Ubuntu16.04、Java1.8、Kettle7.1、MongoDB3.6.2


四、任务分析

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

 MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。

 MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。


五、 任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面,从弹出菜单中选择【Open Terminal Here】命令 打开终端。

 启动MongoDB服务端。如图1所示。


833bf0f71fd64be187914544a17cf0ba.jpg


图1 启动MongoDB服务端

 启动MongoDB客户端,命令【mongo】。如图2所示。


1eb3922c14ed44728b0d07fdd5db0270.png


图2 启动MongoDB客户端

 查看kettleDB数据库中col集合的数据。如图3所示。

b446bde95d1b4f34aaa3c151bd529294.png



图3 查看数据

 重新打开一个终端,启动kettle。如图4所示。


4d5549387bca4f2d86ef163f9ca2fda4.png


图4 启动kettle


步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations即可),然后选择”Design”栏,将”Big Data”下的”MongoDB input”,将”Input”下的”JSON input”和”Flow”下的”Filter rows”以及”Output”栏下的”Text file output”图标拖进工作区。按住Shift键,产生连线。同理其他的线也连上。注意箭头方向。如图5所示

133bf74b01524bd99b7c8d7a63755b00.png



图5创建Transformmations

 设置”MongoDB Input”相关内容(双击图表即可)。如图6-7所示。


2519ca9c0fb74d12a88845b2ee116bec.png


图6 设置”MongoDB Input”相关内容

ee7ca827d89d4091873c50c02d7cc3bd.png



图7 设置”MongoDB Input”相关内容

 设置”JSON Input”相关内容(双击图表即可)。如图8-9所示。


65d5906390b34dab9f440b910a747c00.png


图8 设置”JSON Input”相关内容


d65b7f7f53ab47bdaa6080bafd6c5175.png


图9 设置”JSON Input”相关内容

 设置”Filter rows”相关参数(双击图表即可)。如图10所示。

7f26608385cb40e3b5866b1513d67ca5.png



图10 设置”Filter rows”

 设置”Text file output”相关参数(双击图表即可)。如图11-13所示。


9322c69b5e254e4a9872ba0a8b5c5549.png


图11 设置”Text file output”


7da61ddd01be4eaabb090219cc59fb7c.png


图12 设置”Text file output”

ad2eae0b9e87494a89c4a160986dfca1.png



图13 设置”Text file output”


步骤3、运行任务

运行,清洗好的数据,批量导入到数据库。如图14-15所示。


ef025046b3774c0babfcb8613511b8fc.png


图14 运行任务

3f8fa033875844ea8c4f24942d5f851a.png



图15 保存任务

 查看运行结果。如图16所示。


18bbfa606c7e45809813eb380c9c24bf.png


图16 查看运行结果

 查看记录是否写入。如图17所示。


55d8bc1d02af46e891717900c3aa104a.png


图17 查看数据


♥ 知识链接

NoSQL 简介

NoSQL(NoSQL = Not Only SQL ),意即”不仅仅是SQL”。

NoSQL,指的是非关系型的数据库。NoSQL有时也称作Not Only SQL的缩写,是对不同于传统的关系型数据库的数据库管理系统的统称。


♥ 温馨提示

NoSQL用于超大规模数据的存储。(例如谷歌或Facebook每天为他们的用户收集万亿比特的数据)。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。


相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。   相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
23天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
26天前
|
SQL 关系型数据库 数据库
国产数据实战之docker部署MyWebSQL数据库管理工具
【10月更文挑战第23天】国产数据实战之docker部署MyWebSQL数据库管理工具
91 4
国产数据实战之docker部署MyWebSQL数据库管理工具
|
23天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
28天前
|
NoSQL Cloud Native atlas
探索云原生数据库:MongoDB Atlas 的实践与思考
【10月更文挑战第21天】本文探讨了MongoDB Atlas的核心特性、实践应用及对云原生数据库未来的思考。MongoDB Atlas作为MongoDB的云原生版本,提供全球分布式、完全托管、弹性伸缩和安全合规等优势,支持快速部署、数据全球化、自动化运维和灵活定价。文章还讨论了云原生数据库的未来趋势,如架构灵活性、智能化运维和混合云支持,并分享了实施MongoDB Atlas的最佳实践。
|
29天前
|
NoSQL Cloud Native atlas
探索云原生数据库:MongoDB Atlas 的实践与思考
【10月更文挑战第20天】本文探讨了MongoDB Atlas的核心特性、实践应用及对未来云原生数据库的思考。MongoDB Atlas作为云原生数据库服务,具备全球分布、完全托管、弹性伸缩和安全合规等优势,支持快速部署、数据全球化、自动化运维和灵活定价。文章还讨论了实施MongoDB Atlas的最佳实践和职业心得,展望了云原生数据库的发展趋势。
|
1月前
|
人工智能 Cloud Native 容灾
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?
|
1月前
|
存储 NoSQL MongoDB
MongoDB 数据库引用
10月更文挑战第20天
19 1
|
15天前
|
SQL 关系型数据库 MySQL
12 PHP配置数据库MySQL
路老师分享了PHP操作MySQL数据库的方法,包括安装并连接MySQL服务器、选择数据库、执行SQL语句(如插入、更新、删除和查询),以及将结果集返回到数组。通过具体示例代码,详细介绍了每一步的操作流程,帮助读者快速入门PHP与MySQL的交互。
29 1
|
17天前
|
SQL 关系型数据库 MySQL
go语言数据库中mysql驱动安装
【11月更文挑战第2天】
30 4
|
24天前
|
监控 关系型数据库 MySQL
数据库优化:MySQL索引策略与查询性能调优实战
【10月更文挑战第27天】本文深入探讨了MySQL的索引策略和查询性能调优技巧。通过介绍B-Tree索引、哈希索引和全文索引等不同类型,以及如何创建和维护索引,结合实战案例分析查询执行计划,帮助读者掌握提升查询性能的方法。定期优化索引和调整查询语句是提高数据库性能的关键。
123 1
下一篇
无影云桌面