用Kettle的一套流程完成对整个数据库迁移

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介:

需求: 
1.你是否遇到了需要将mysql数据库中的所有表与数据迁移到Oracle。 
2.你是否还在使用kettle重复的画着:表输入-表输出、创建表,而烦恼。 

下面为你实现了一套通用的数据库迁移流程。 

技术引导: 
实现之初,在kettle提供的例子中找到了一个类似的(samples\jobs\process all tables)。 
通过相关改造,终于达到目标。 

实现过程解剖: 
整套流程分为:2个job,4个trans。 
使用到的Trans插件:表输入、字段选择、复制记录到结果、从结果获取记录、设置变量、自定义java脚本、表输出。 
1.大job。 
65f75098-7ca3-3909-82ab-4d6018ce3978.jpg 

2.要迁移的源库表名称获取,并设置到结果集,为下面的job使用。 
ebdcfbb7-0c5e-33a7-82ac-b0e50a3fae99.jpg 

3.配置子job为前面的每一条记录(即每个表)执行一次该子job 
a5a813b4-af6e-312f-a070-def4802287b6.jpg

4.下面是子job。 
014b4e97-55c4-37e9-8f30-00725635fdcc.jpg 

5.获取记录中的表名称,并设置为到变量。 
4fbda7e9-0b22-3098-82c2-dc747f4eb730.jpg 

6.读取当前表的结果信息,并在目标库中创建表(这个是难点)。 
28812255-89ac-36ab-89de-08e1eec35e62.jpg 
因为只需要获取抓取要抽取表的结构信息,故在sql后面加上 where 1=2。 
19759806-7975-3081-ae66-a42a2981d338.jpg 
下面代码是创建目标库表。 

Java代码   收藏代码

  1. public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException  
  2. {  
  3.     // First, get a row from the default input hop  
  4.     //  
  5.     Object[] r = getRow();  
  6.   
  7.     org.pentaho.di.core.database.DatabaseMeta dbmeta = null;  
  8.       
  9.     java.util.List list = getTrans().getRepository().readDatabases();//3.x中获取资源库的所有数据库连接信息用getDatabases();  
  10.       
  11.     if(list != null && !list.isEmpty())  
  12.     {  
  13.         for(int i=0;i<list.size();i++)  
  14.         {  
  15.             dbmeta = (org.pentaho.di.core.database.DatabaseMeta)list.get(i);  
  16.                         //下面是目标库的数据库连接,大家可根据需要修改  
  17.             if(“mysql_test”.equalsIgnoreCase(dbmeta.getName()))  
  18.             {                 
  19.                 break;  
  20.             }  
  21.         }  
  22.     }  
  23.   
  24.     if(dbmeta!=null)  
  25.     {  
  26.         org.pentaho.di.core.database.Database db=new org.pentaho.di.core.database.Database(dbmeta);  
  27.           
  28.         try  
  29.         {  
  30.             db.connect();  
  31.   
  32.             String tablename = getVariable(“TABLENAME”);  
  33.   
  34.             logBasic(“开始创建表:” + tablename);  
  35.               
  36.             if(tablename!=null && tablename.trim().length()>0)  
  37.             {  
  38.                 String sql = db.getDDL(tablename, data.inputRowMeta);//${TABLENAME}  
  39.                               
  40.                 db.execStatement(sql.replace(“;”“”));  
  41.   
  42.                 logBasic(sql);  
  43.             }  
  44.         }  
  45.         catch(Exception e)  
  46.         {             
  47.             logError(“创建表出现异常”,e);  
  48.               
  49.         }finally{  
  50.             db.disconnect();  
  51.         }  
  52.     }  
  53.     return false;  
  54. }  

7.表数据迁移。 
5af488f0-b688-3756-bc18-d954d0921bc4.jpg 
2d7dff20-fac2-3e78-834d-4f2a0a58d751.jpg 

8.差不多就行了,本人使用mysql到mysql、oracle的测试是没有问题的不过在测试过程中,发现源表若存在有blob的表,会有问题,可能是由于表输出没有指定字段的原因,具体解决办法,也没有去多想,以后有时间在完善把。

上面的整套流程的是在kettle4.3下完成的,附件里面可下载完整流程。 

5.x运行到创建表结构步骤报错,原因data.inputRowMeta为空,因为在第6步 
在sql后面加上 where 1=2,导致表输入步骤没有抽取到记录,5.x里结构也变成了null。 
解决: 
把where 1=2去掉,然后,在表输入的限制行设置为1,即可,本人亲测。

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
3月前
|
数据库连接 数据库
kettle开发篇-数据库查询
kettle开发篇-数据库查询
41 0
|
4月前
|
数据安全/隐私保护 时序数据库
InfluxData【部署 03】时序数据库 InfluxDB 离线安装配置使用(下载+安装+端口绑定+管理员用户创建+开启密码认证+开机自启配置)完整流程实例分享
InfluxData【部署 03】时序数据库 InfluxDB 离线安装配置使用(下载+安装+端口绑定+管理员用户创建+开启密码认证+开机自启配置)完整流程实例分享
139 0
|
7月前
|
SQL Java 数据库连接
jdbc的执行流程|不同数据库的驱动配置
jdbc的执行流程|不同数据库的驱动配置
|
1月前
|
SQL 关系型数据库 MySQL
阿里云数据库使用方法,从购买、创建数据库账号密码到连接数据库全流程
阿里云数据库使用方法,从购买、创建数据库账号密码到连接数据库全流程,阿里云数据库怎么使用?阿里云百科整理阿里云数据库从购买到使用全流程,阿里云支持MySQL、SQL Server、PostgreSQL和MariaDB等数据库引擎,阿里云数据库具有高可用、高容灾特性,阿里云提供数据库备份、恢复、迁移全套解决方案
344 0
|
3月前
|
Oracle 关系型数据库 MySQL
kettle开发篇-数据库连接
kettle开发篇-数据库连接
59 0
|
4月前
|
消息中间件 存储 中间件
Greenplum GPKafka【部署 01】使用GPKafka实现Kafka数据导入Greenplum数据库完整流程分享(扩展安装文件网盘分享)
Greenplum GPKafka【部署 01】使用GPKafka实现Kafka数据导入Greenplum数据库完整流程分享(扩展安装文件网盘分享)
37 0
|
4月前
|
存储 SQL 缓存
数据库的三层结构及sql执行流程
连接层,服务层,存储引擎层
|
4月前
|
存储 SQL 关系型数据库
Mysql数据库 11.SQL语言 储存过程 中 流程控制
Mysql数据库 11.SQL语言 储存过程 中 流程控制
43 0
|
6月前
|
关系型数据库 MySQL Java
数据库迁移工具Kettle连接Mysql数据库报错:Driver class ‘org.gjt.mm.mysql.Dr...解决
数据库迁移工具Kettle连接Mysql数据库报错:Driver class ‘org.gjt.mm.mysql.Dr...解决
|
6月前
|
数据采集 Java 关系型数据库
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
164 0

热门文章

最新文章