Kettle拆分时间段循环进行导入数据

简介: Kettle拆分时间段循环进行导入数据

文章目录

背景

遇到使用kettle抽取比较三年的数据,数据量比较大,表输入直接查询会卡死,数据量太大还会导致内存溢出。所以想根据时间一天一天的来循环执行转换。

思路

长时间段拆分,拆分一天一天的时间,将结果复制到作业设置变量,将变量传入新的转换进行执行即可。

解决方法

时间拆分

利用oracle数据库,connect by 来实现时间拆分。

3eb4de5d044e40b79155a391600dce55.png

时间分段转换

c1587908846945dd86dadd4c62e21ead.png

设置时间变量

a574068ffc4a450db632653db1d330ce.png

主要执行的转换

2fe54dc7b38f4ec592d84c465fe91d57.png

设置子任务

fbd50d7252e74c929cb32081389b7d42.png

主任务

7cc8ef6f4f8e496c9a3e189debdfdbb4.png

运行结果

39f4376372de4fe79a01a85e1e0fe795.png

注意:子任务第一个转换需要勾选如下图

c06baf141a264dad833099f68daa8d71.png


相关文章
|
6月前
|
SQL 关系型数据库 MySQL
我使用flinkcdc的sql形式进行全量同步,4张表,有两张表数据没进去,看日志,id怎么是null呢?
我使用flinkcdc的sql形式进行全量同步,4张表,有两张表数据没进去,看日志,id怎么是null呢?
161 40
|
SQL Oracle 关系型数据库
sqoop的导入导出以及where条件过滤数据导出
sqoop的导入导出以及where条件过滤数据导出
|
4月前
|
分布式计算 自然语言处理 大数据
MaxCompute操作报错合集之使用pyodps读取全表(百万级),然后对其中某列apply自己定义的分词函数,遇到报错,该如何排查
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
4月前
|
SQL 分布式计算 DataWorks
MaxCompute操作报错合集之使用sql查询一个表的分区数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
4月前
|
SQL
云架构数据倾斜问题之在SQL数据源读取查询时合并小文件如何解决
云架构数据倾斜问题之在SQL数据源读取查询时合并小文件如何解决
|
存储 关系型数据库 MySQL
MySQL 中单表数据的最大行数应该控制在多少?
MySQL 中单表数据的最大行数应该控制在多少?
2130 1
MySQL 中单表数据的最大行数应该控制在多少?
|
6月前
|
分布式计算 资源调度 运维
在MaxCompute中,若想查看表的小文件合并时间
在MaxCompute中,若想查看表的小文件合并时间
71 1
|
6月前
|
算法 Apache 数据库
Sqoop的增量数据加载策略与示例
Sqoop的增量数据加载策略与示例
|
11月前
|
流计算
Flink CDC-sql怎样导数据使starrocks支持主键模型delete的配置吗?目前只能更新和插入,但是删除不行
Flink CDC-sql怎样导数据使starrocks支持主键模型delete的配置吗?目前只能更新和插入,但是删除不行
238 1
|
6月前
|
Shell 数据库
数据库第六次作业 查询数据-多条件
数据库第六次作业 查询数据-多条件
71 0