kettle开发篇-流查询

简介: kettle开发篇-流查询

前言:


昨天我们讲了数据库相关操作,数据库连接来实现两个库的跨库查询,对应复杂的跨库查询通过数据库连接整合到一块后,就像是在一个数据库里面操作,今天我们来学习流查询,流查询主要用于在查询前把数据加载到内存中,并且只能进行等值查询。


一、流查询


流查询在查询前把数据加载到内存中,并且只能进行等值查询。

流查询的操作包括指定数据源,即我们将数据进行流查询的数据源头,如下图所示流查询的数据源是我们的Excel输入-departments,然后我们还需要指定我们进行流查询匹配的字段,即我们进行等值查询的字段,depid和id。最后我们指定我们需要返回的字段,即depname 来接收我们流查询的值。  


二、应用实例


今天我们的任务是从EXCEL读取employess和departments的数据,根据depid来查询depname,把数据保存到Excel。 为了实现这个需求,我们需要用到两个EXCEL的表输入,分别为EXCEL表输入employess、EXCEL表输入departments,流查询将输入的employess、departments数据进行等值比较再输出至EXCEL。具体转换如下图所示。

对应EXCEL表输入分为两个, 操作和以前一致,只是分别读取departments和employess的数据。我们接下来重点讲下流查询操作,需要注意的是因为我们要输出depname因此我们在流查询步骤选择时,我们选择departments,然后指定depid和id关联,最后输出我们的匹配dep_name。其实有点数据库基础的朋友可以将流查询理解为数据库的内连接查询,这样是不是瞬间就理解。只是这个内连接,可以连接任何的数据流。

相关文章
|
2月前
kettle开发篇-空操作
kettle开发篇-空操作
56 0
|
2月前
|
数据库连接 数据库
kettle开发篇-数据库查询
kettle开发篇-数据库查询
73 0
|
2月前
|
数据库
kettle开发篇-记录集连接
kettle开发篇-记录集连接
101 0
|
2月前
|
Java 数据库连接 对象存储
实时计算 Flink版操作报错之表可以自动建,但数据无法导入,连接Starrocks 的be时候,报错,是什么原因
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
7天前
|
DataWorks Java 调度
DataWorks产品使用合集之进行离线同步时,如何使用DataX的Reader插件来实现源端过滤
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
27 0
DataWorks产品使用合集之进行离线同步时,如何使用DataX的Reader插件来实现源端过滤
|
2月前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用合集之采集选择增量(latest)读取模式,是否可以使用动态加载表功能
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
BI API 流计算
[实时流基础 flink] 窗口
[实时流基础 flink] 窗口
|
2月前
|
SQL Oracle 算法
Flink CDC 数据源问题之不支持窗口聚合如何解决
Flink CDC数据源指的是使用Apache Flink的CDC特性来连接并捕获外部数据库变更数据的数据源;本合集将介绍如何配置和管理Flink CDC数据源,以及解决数据源连接和同步过程中遇到的问题。
|
2月前
|
数据库
kettle开发篇-分组
kettle开发篇-分组
88 0
|
数据采集 运维 Ubuntu
使用kettle进行数据采集处理与数据关联操作
使用kettle进行数据采集处理与数据关联操作