kettle开发篇-流查询

简介: kettle开发篇-流查询

前言:


昨天我们讲了数据库相关操作,数据库连接来实现两个库的跨库查询,对应复杂的跨库查询通过数据库连接整合到一块后,就像是在一个数据库里面操作,今天我们来学习流查询,流查询主要用于在查询前把数据加载到内存中,并且只能进行等值查询。


一、流查询


流查询在查询前把数据加载到内存中,并且只能进行等值查询。

流查询的操作包括指定数据源,即我们将数据进行流查询的数据源头,如下图所示流查询的数据源是我们的Excel输入-departments,然后我们还需要指定我们进行流查询匹配的字段,即我们进行等值查询的字段,depid和id。最后我们指定我们需要返回的字段,即depname 来接收我们流查询的值。  


二、应用实例


今天我们的任务是从EXCEL读取employess和departments的数据,根据depid来查询depname,把数据保存到Excel。 为了实现这个需求,我们需要用到两个EXCEL的表输入,分别为EXCEL表输入employess、EXCEL表输入departments,流查询将输入的employess、departments数据进行等值比较再输出至EXCEL。具体转换如下图所示。

对应EXCEL表输入分为两个, 操作和以前一致,只是分别读取departments和employess的数据。我们接下来重点讲下流查询操作,需要注意的是因为我们要输出depname因此我们在流查询步骤选择时,我们选择departments,然后指定depid和id关联,最后输出我们的匹配dep_name。其实有点数据库基础的朋友可以将流查询理解为数据库的内连接查询,这样是不是瞬间就理解。只是这个内连接,可以连接任何的数据流。

相关文章
|
7月前
|
数据库
kettle开发篇-合并记录
kettle开发篇-合并记录
278 0
|
6月前
|
DataWorks Java 调度
DataWorks产品使用合集之进行离线同步时,如何使用DataX的Reader插件来实现源端过滤
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
81 0
DataWorks产品使用合集之进行离线同步时,如何使用DataX的Reader插件来实现源端过滤
|
7月前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用合集之采集选择增量(latest)读取模式,是否可以使用动态加载表功能
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
7月前
|
缓存 算法 BI
【天衍系列 02】深入理解Flink的FileSink 组件:实时流数据持久化与批量写入
【天衍系列 02】深入理解Flink的FileSink 组件:实时流数据持久化与批量写入
290 2
|
7月前
|
SQL 消息中间件 Kafka
Flink数据源问题之扫描数据源如何解决
Flink数据源是指Apache Flink用于读取外部系统数据的接口或组件;本合集将探讨Flink数据源的类型、配置方法和最佳实践,以及在使用数据源时可能遇到的错误和解决方案。
|
7月前
|
数据库
kettle开发篇-分组
kettle开发篇-分组
168 0
|
缓存 算法 数据库连接
Kettle查询与连接(七)
Kettle查询与连接(七)
418 0
Kettle查询与连接(七)
|
SQL 分布式计算 Ubuntu
8-点击流数据分析项目-Hive分析
文章目录 8-点击流数据分析项目-Hive分析 一、环境准备与数据导入 1.开启hadoop 2.导入数据
8-点击流数据分析项目-Hive分析
|
数据采集 Dubbo 应用服务中间件
使用 Logstash 导入流式数据|学习笔记
快速学习使用 Logstash 导入流式数据
141 0
使用 Logstash 导入流式数据|学习笔记
|
数据库连接 数据库
无事来学学--Kettle中查询,流程,连接组件的使用(上)
查询组件 查询是转换里面的第七个分类。查询是用来查询数据源里的数据并合并到主数据流中。
567 0