某社区600万用户数据导入MYSQL、MSSQL、Oracle数据库方法-阿里云开发者社区

某社区600万用户数据导入MYSQL、MSSQL、Oracle数据库方法

2017-12-20 2370

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1.导入MySql数据库

参考文献：http://zhuaxia.org/blog/post/145

1.1.LOAD DATA INFILE语法

因为获得的数据库文件是一个文本文件www.csdn.net.sql，因此需要用到mysql中的LOAD DATA INFILE命令，LOAD DATA INFILE的语法结构如下：

 
 
 View Code 

1.2.创建存放数据的表

观察文本结构，发现每一行都是如下所示结构：

username # password # email

中间用"#"进行分割。因此我们创建的表必定含有username，password和email字段，但是我们还必须为表添加一个主键列，并让其自动增长，这样我们在添加数据的时候就不需要手动添加主键列。因此表结构如下：

 
 
 View Code 

注意：MySQL中MyISAM引擎与InnoDB引擎有一些区别，但是这并不是本篇博客的主题，因此略过不提。

1.3.导入数据

在创建表以后，我们就可以通过 load data infile命令导入数据了，具体的导入命令如下：

load data local infile 'd:\\www.csdn.net.sql' into table csdnuser2 fields terminated by ' # ' (username,password,email);

大概运行了1分钟左右就导入完成了，导入完成以后显示：

Query OK, 6428632 rows affected, 2030 warnings (54.47 sec)
Records: 6428632  Deleted: 0  Skipped: 0  Warnings: 295

注意：

　　安装的MySQL5.1默认的数据库文件存放的路径是：C:\Documents and Settings\All Users\Application Data\MySQL 中，比如我们的csdndb就在路径C:\Documents and Settings\All Users\Application Data\MySQL\MySQL Server 5.1\data\csdndb当中。如果经常恢复系统的话，放在c盘不安全，可以在安装的时候修改安装路径。如下图所示：

2.导入Sql Server数据库

参考文献：http://qiaolevip.iteye.com/blog/1324649

2.1.BULK INSERT语法

在Sql Server中，使用BULK INSERT命令导入数据，该命令以用户指定的格式将数据文件导入到数据库表或视图中。BULK INSERT语法结构如下：

 
 
 View Code 

2.2. 创建数据库表

 
 
 View Code 

2.3.使用bulk insert导入数据

 
 
 View Code 

(6428632 行受影响)，耗时：00:02:00

其中fieldterminator = ' # ',表示列分隔符，rowterminator = '\n'表示行分隔符。

2.4.添加主键列

参考：http://topic.csdn.net/u/20090913/15/fa2e7e65-73d8-4b64-b6e0-bd583f564d86.html?95717

上面的操作虽然将数据导入到了数据库中，但是我们会发现数据库表csnd1没有主键列，那么如果我们在表中添加一个www.csdn.net.sql文件中没有的主键列以后，该如何进行数据库导入呢？经过多次测试，无法使用原来的bulk insert命令进行导入，但是可以用类似bulk的命令进行导入。

首先创建带主键id的csdnuser表：

 
 
 View Code 

然后使用如下命令进行导入：

 
 
 View Code 

(6428632 行受影响)，耗时：00:01:25

3.导入Oracle数据库

3.1.目标表只有三列

参考：http://www.cnblogs.com/nocode/archive/2011/12/26/2302343.html

首先创建数据库表，我们在scott用户下创建csdn表

 
 
 View Code 

创建控制文件D:\www.csdn.net.sql

 
 
 View Code 

打开cmd命令行，使用sqlldr命令进行导入，导入命令如下：

C:\Users\xuwei>sqlldr userid=scott/tiger@orcl control=D:/ora_csdn.ctrl DIRECT=TRUE log=resulthis.out

输出的日志文件为resulthis.out，他在C:\Users\xuwei目录下，因为上述sqlldr就在该目录下运行的。resulthis.out内容如下：

 
 
 View Code 

通过上述日志可以发现导入耗时为29.86秒。

3.2为数据表添加主键列，并且自动增长

参考：

（1）Mysql，SqlServer，Oracle主键自动增长的设置

（2）sqlldr 中使用sequence

　　起初考虑为主键创建sequence，然后通过触发器来插入主键，但是一直报错。后来通过控制文件中使用sequence来插入主键完成操作。

创建数据库表:CSDNUSER

 
 
 View Code 

_______________________________________________

PS：2012-6-11

如果要求索引的等级BLEVEL，可以通过以下查询语句求出：

select index_name, blevel, num_rows from user_indexes where table_name = 'CSDNUSER';

但是发现查找结果为0。后来发现是因为上述建表出现问题，就是没有为primary key命名，如果没有指定primary key的名称，那么系统为默认设定一个名称，比如SYS_C0038642之类的主键名称。因此我们首先删除上述主键，然后再添加主键。

 
 
 View Code 

当然也可以直接在建表到时候就创建主键名称

 
 
 View Code 

在创建主键的时候，我们发现花费了一些时间，这是因为主键也是占据一定磁盘空间的。

————————————————————————————

创建控制文件：ora_csdn2.ctrl

 
 
 View Code 

在cmd中执行sqlldr命令

C:\Users\xuwei>sqlldr userid=scott/tiger@orcl control=D:/ora_csdn2.ctrl direct=true  log=resulthis.out

resulthis.out内容如下：

 
 
 View Code 

3.3为数据表添加年龄列（2012-6-13）

　　如果要利用上述数据进行数据分析，会发现内容太单调了，下面我们就要为原始数据添加一个年龄age列。即将原始的"username # password # email"的数据源文件变成"username # password # email # age"的文件，age是通过java代码写入文件的一个[18,99]区间的一个随机数。随机数的生成可以参考前一篇博客：java生成指定范围的随机数。

通过java程序为www.csdn.net.sql源文件添加一列age，生成一个新的文件www.csdn22.net.sql

 
 
 View Code 

创建数据库表：csdnuser3

 
 
 View Code 

创建控制文件ora_csdn3.ctrl

 
 
 View Code 

打开cmd命令行，使用sqlldr命令进行导入，导入命令如下：

C:\Users\xuwei>sqlldr userid=scott/tiger@orcl control=D:/ora_csdn3.ctrl DIRECT=TRUE log=resulthis.out

输出的日志文件为resulthis.out，他在C:\Users\xuwei目录下，因为上述sqlldr就在该目录下运行的。resulthis.out内容如下：

 
 
 View Code 

通过上述日志可以发现导入耗时为38.00秒。

提高 SQL*Loader　的性能：

一个简单而容易忽略的问题是，没有对导入的表使用任何索引和/或约束(主键)。如果这样做，甚至在使用ROWS=参数时，会很明显降低数据库导入性能。
可以添加 DIRECT=TRUE来提高导入数据的性能。当然，在很多情况下，不能使用此参数。
通过指定　UNRECOVERABLE选项，可以关闭数据库的日志。这个选项只能和 direct 一起使用。
可以同时运行多个导入任务。

常规导入与direct导入方式的区别：

常规导入可以通过使用 INSERT语句来导入数据。Direct导入可以跳过数据库的相关逻辑(DIRECT=TRUE)，而直接将数据导入到数据文件中。比如direct导入将不检测主键的唯一性。

SQLLDR用法

用法: SQLLDR keyword=value [,keyword=value,...]有效的关键字:

 
 
 View Code 

导入的四种类型

insert --为缺省方式，在数据装载开始时要求表为空
append --在表中追加新记录
replace --删除旧记录(用 delete from table 语句)，替换成新装载的记录
truncate --删除旧记录(用 truncate table 语句)，替换成新装载的记录

TRAILING NULLCOLS -- 表的字段没有对应的值时允许为空

本文转自xwdreamer博客园博客，原文链接：http://www.cnblogs.com/xwdreamer/archive/2012/06/08/2541678.html，如需转载请自行联系原作者

某社区600万用户数据导入MYSQL、MSSQL、Oracle数据库方法

1.导入MySql数据库

1.1.LOAD DATA INFILE语法

1.2.创建存放数据的表

1.3.导入数据

注意：

2.导入Sql Server数据库

2.1.BULK INSERT语法

2.2. 创建数据库表

2.3.使用bulk insert导入数据

2.4.添加主键列

3.导入Oracle数据库

3.1.目标表只有三列

3.2为数据表添加主键列，并且自动增长

PS：2012-6-11

3.3为数据表添加年龄列（2012-6-13）

提高 SQL*Loader　的性能：

常规导入与direct导入方式的区别：

SQLLDR用法

导入的四种类型

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

某社区600万用户数据导入MYSQL、MSSQL、Oracle数据库方法

1.导入MySql数据库

1.1.LOAD DATA INFILE语法

1.2.创建存放数据的表

1.3.导入数据

注意：

2.导入Sql Server数据库

2.1.BULK INSERT语法

2.2. 创建数据库表

2.3.使用bulk insert导入数据

2.4.添加主键列

3.导入Oracle数据库

3.1.目标表只有三列

3.2为数据表添加主键列，并且自动增长

PS：2012-6-11

3.3为数据表添加年龄列（2012-6-13）

提高 SQL*Loader 的性能：

常规导入与direct导入方式的区别：

SQLLDR用法

导入的四种类型

热门文章

最新文章

相关课程

相关电子书

推荐镜像

提高 SQL*Loader　的性能：