Kettle拆分时间段循环进行导入数据

简介: Kettle拆分时间段循环进行导入数据

文章目录

背景

遇到使用kettle抽取比较三年的数据,数据量比较大,表输入直接查询会卡死,数据量太大还会导致内存溢出。所以想根据时间一天一天的来循环执行转换。

思路

长时间段拆分,拆分一天一天的时间,将结果复制到作业设置变量,将变量传入新的转换进行执行即可。

解决方法

时间拆分

利用oracle数据库,connect by 来实现时间拆分。

3eb4de5d044e40b79155a391600dce55.png

时间分段转换

c1587908846945dd86dadd4c62e21ead.png

设置时间变量

a574068ffc4a450db632653db1d330ce.png

主要执行的转换

2fe54dc7b38f4ec592d84c465fe91d57.png

设置子任务

fbd50d7252e74c929cb32081389b7d42.png

主任务

7cc8ef6f4f8e496c9a3e189debdfdbb4.png

运行结果

39f4376372de4fe79a01a85e1e0fe795.png

注意:子任务第一个转换需要勾选如下图

c06baf141a264dad833099f68daa8d71.png


相关文章
|
3月前
|
SQL 关系型数据库 MySQL
我使用flinkcdc的sql形式进行全量同步,4张表,有两张表数据没进去,看日志,id怎么是null呢?
我使用flinkcdc的sql形式进行全量同步,4张表,有两张表数据没进去,看日志,id怎么是null呢?
139 40
|
3月前
|
数据库
kettle开发篇-合并记录
kettle开发篇-合并记录
168 0
|
9月前
|
PHP 数据库
fastadmin框架如何查询数据表指定时间段内的数据
fastadmin框架如何查询数据表指定时间段内的数据
263 0
|
SQL Oracle 关系型数据库
sqoop的导入导出以及where条件过滤数据导出
sqoop的导入导出以及where条件过滤数据导出
|
1月前
|
分布式计算 自然语言处理 大数据
MaxCompute操作报错合集之使用pyodps读取全表(百万级),然后对其中某列apply自己定义的分词函数,遇到报错,该如何排查
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
1月前
|
SQL 分布式计算 DataWorks
MaxCompute操作报错合集之使用sql查询一个表的分区数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
2月前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版产品使用问题之任务在同步过程中新增同步表后选择全量初始化历史数据,是否会阻塞原先其余表的增量同步
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
实时计算 Flink版产品使用问题之任务在同步过程中新增同步表后选择全量初始化历史数据,是否会阻塞原先其余表的增量同步
|
28天前
|
SQL
云架构数据倾斜问题之在SQL数据源读取查询时合并小文件如何解决
云架构数据倾斜问题之在SQL数据源读取查询时合并小文件如何解决
|
3月前
|
流计算
Flink CDC里关于doris的动态分区问题,对以及建好的动态分区表,可以再次修改历史分区的保留时间嘛?
【1月更文挑战第24天】【1月更文挑战第117篇】Flink CDC里关于doris的动态分区问题,对以及建好的动态分区表,可以再次修改历史分区的保留时间嘛?
87 6
|
3月前
|
分布式计算 资源调度 运维
在MaxCompute中,若想查看表的小文件合并时间
在MaxCompute中,若想查看表的小文件合并时间
57 1

相关实验场景

更多