SQLServer · 最佳实践 · 数据库实现大容量插入的几种方式

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
云数据库 RDS SQL Server,基础系列 2核4GB
简介:

背景

很多用户在使用阿里云云数据库SQL Server时,为了加快插入速度,都尝试使用大容量插入的方式,大家都知道,对于完整恢复模式下的数据库,大容量导入执行的所有行插入操作都会完整地记录在事务日志中。如果使用完整恢复模式,大型数据导入会导致填充事务日志的速度很快。相反,对于简单恢复模式或大容量日志恢复模式,大容量导入操作的按最小方式记录日志减少了大容量导入操作填满日志空间的可能性。另外,按最小方式记录日志的效率也比按完整方式记录日志高 。
但实际上,当大容量导入与数据库镜像共存时,会出现镜像 Suspend的情况,这个情况是由于微软在2008 R2上的BUG导致,微软已经明确表示在2008 R2不会FIXED,那么如何正确在RDS使用大容量导入并避免镜像异常,下面介绍几种方式.

实现方法

  • 通过ADO.NET SQLBulkCopy 方式
  • 只需要将SqlBulkCopy 指定SqlBulkCopyOptions.CheckConstraints就好,即:SqlBulkCopy blkcpy = new SqlBulkCopy(desConnString, SqlBulkCopyOptions.CheckConstraints)
    例如:将本地的一个大表通过SQLBulkCopy方式导入到RDS的实例中
    
    static void Main()
    {
      string srcConnString = "Data Source=(local);Integrated Security=true;
      Initial Catalog=testdb";
      string desConnString = "Data Source=****.sqlserver.rds.aliyuncs.com,3433;
      UserID=**;Password=**;Initial Catalog=testdb";
    
      SqlConnection srcConnection = new SqlConnection();
      SqlConnection desConnection = new SqlConnection();
    
      SqlCommand sqlcmd = new SqlCommand();
      SqlDataAdapter da = new SqlDataAdapter();
      DataTable dt = new DataTable();
    
      srcConnection.ConnectionString = srcConnString;
      desConnection.ConnectionString = desConnString;
      sqlcmd.Connection = srcConnection;
    
      sqlcmd.CommandText = @"
      SELECT top 1000000 [PersonType],[NameStyle],[Title],[FirstName],[MiddleName],
      [LastName] ,[Suffix],[EmailPromotion],[AdditionalContactInfo],[Demographics],NULL 
      as rowguid,[ModifiedDate] FROM [testdb].[dbo].[Person]";
    
      sqlcmd.CommandType = CommandType.Text;
      sqlcmd.Connection.Open();
      da.SelectCommand = sqlcmd;
      da.Fill(dt);
    
    
      using (SqlBulkCopy blkcpy = 
      new  SqlBulkCopy(desConnString,SqlBulkCopyOptions.CheckConstraints))
      // using (SqlBulkCopy blkcpy = 
      // new SqlBulkCopy(desConnString, SqlBulkCopyOptions.Default))
      {
        blkcpy.BatchSize = 2000;
        blkcpy.BulkCopyTimeout = 5000;
        blkcpy.SqlRowsCopied += new SqlRowsCopiedEventHandler(OnSqlRowsCopied);
        blkcpy.NotifyAfter = 2000;
    
        foreach (DataColumn dc in dt.Columns)
        {
          blkcpy.ColumnMappings.Add(dc.ColumnName, dc.ColumnName);
        }
    
        try
        {
          blkcpy.DestinationTableName = "Person";
          blkcpy.WriteToServer(dt);
        }
        catch (Exception ex)
        {
          Console.WriteLine(ex.Message);
        }
        finally
        {
          sqlcmd.Clone();
          srcConnection.Close();
          desConnection.Close();
        }
      }
    }
    
    private static void OnSqlRowsCopied(
        object sender, SqlRowsCopiedEventArgs e)
    {
      Console.WriteLine("Copied {0} so far...", e.RowsCopied);
    }
    
    

  • 通过JDBC SQLServerBulkCopy 方式

  • 同样的道理,需要在copyOptions指定检查约束性
    SQLServerBulkCopyOptions copyOptions = new SQLServerBulkCopyOptions();  
    copyOptions.setCheckConstraints(true);
    测试时,请用Microsoft JDBC Drivers 6.0 的sqljdbc41.jar,sqljdbc4.jar及更老版本没有SQLServerBulkCopy 实现。
    
    例如: 将本地的一个大表通过SQLServerBulkCopy方式导入到RDS的实例中
    
    
    import java.sql.*;
    import com.microsoft.sqlserver.jdbc.SQLServerBulkCopy;
    import com.microsoft.sqlserver.jdbc.SQLServerBulkCopyOptions;
    
    public class Program {
      public static void main(String[] args)  
      {  
        String sourceConnectionString  = "jdbc:sqlserver://localhost:1433;" +  
                "databaseName=testdb;user=****;password=****";  
        String destConnectionString  = "jdbc:sqlserver://*****.sqlserver.rds.aliyuncs.com:3433;" +  
                "databaseName=testdb;user=****;password=**** ";  
        try  
        {  
          Class.forName("com.microsoft.sqlserver.jdbc.SQLServerDriver");  
          try (Connection sourceConnection =
               DriverManager.getConnection(sourceConnectionString))  
          {  
            try (Statement stmt = sourceConnection.createStatement())  
            {  
              try (ResultSet rsSourceData = stmt.executeQuery(  
                    " SELECT top 1000000 " +
                    "[PersonType],[NameStyle],[Title],[FirstName],[MiddleName],[LastName] ," +
                    "[Suffix],[EmailPromotion],[AdditionalContactInfo]," +
                    "[Demographics],NULL as rowguid,[ModifiedDate] " +
                    "FROM [testdb].[dbo].[Person]"))  
              {   
                try (Connection destinationConnection =  DriverManager.getConnection(destConnectionString))  
                {  
                  Statement stmt1 = destinationConnection.createStatement();
                  			
                  long countStart = 0;  
                  try (ResultSet rsRowCount = stmt1.executeQuery(  
                          "SELECT COUNT(*) FROM dbo.Person;"))  
                  {  
                    rsRowCount.next();  
                    countStart = rsRowCount.getInt(1);  
                    System.out.println("Starting row count = " + countStart);  
                  }  
                     
                  try (SQLServerBulkCopy bulkCopy =   new SQLServerBulkCopy(destinationConnection))  
                  {  
                    SQLServerBulkCopyOptions copyOptions = new SQLServerBulkCopyOptions();  
                    copyOptions.setKeepIdentity(true);  
                    copyOptions.setBatchSize(2000);
                    copyOptions.setBulkCopyTimeout(5000);
                    //this is importance setting
                    copyOptions.setCheckConstraints(true);
                    bulkCopy.setBulkCopyOptions(copyOptions);
                    bulkCopy.setDestinationTableName("dbo.Person");  
                    bulkCopy.addColumnMapping("PersonType", "PersonType");  
                    bulkCopy.addColumnMapping("NameStyle", "NameStyle");  
                    bulkCopy.addColumnMapping("Title", "Title");  
                    bulkCopy.addColumnMapping("FirstName", "FirstName");  
                    bulkCopy.addColumnMapping("MiddleName", "MiddleName");  
                    bulkCopy.addColumnMapping("LastName", "LastName");  
                    bulkCopy.addColumnMapping("Suffix", "Suffix");  
                    bulkCopy.addColumnMapping("EmailPromotion", "EmailPromotion");  
                    bulkCopy.addColumnMapping("AdditionalContactInfo", "AdditionalContactInfo");  
                    bulkCopy.addColumnMapping("Demographics", "Demographics");  
                    bulkCopy.addColumnMapping("rowguid", "rowguid");  
                    bulkCopy.addColumnMapping("ModifiedDate", "ModifiedDate");  
                    try  
                    {  
                      bulkCopy.writeToServer(rsSourceData);  
                    }  
                    catch (Exception e)  
                    {  
                      e.printStackTrace();  
                    }  
                    
                    try (ResultSet rsRowCount = stmt1.executeQuery(  
                          "SELECT COUNT(*) FROM dbo.Person;"))  
                    {  
                      rsRowCount.next();  
                      long countEnd = rsRowCount.getInt(1);  
                      System.out.println("Ending row count = " + countEnd);  
                      System.out.println((countEnd - countStart) + " rows were added.");  
                    }  
                  }  
                }  
              }  
            }  
          }  
        }  
        catch (Exception e)  
        {  
            e.printStackTrace();  
        }  
      }  
    }


  • 通过BCP方式
  • 第一步:需要将数据BCP到本地

  • BCP testdb.dbo.person Out "bcp_data" /t  /N /U **** /P *** /S "****.sqlserver.rds.aliyuncs.com,3433"    
    

    第二步:将导出的文件直接导入到RDS的实例中,但需要指定提示:/h “CHECK_CONSTRAINTS”

  • BCP testdb.dbo.person In "bcp_data" /C /N /q /k /h "CHECK_CONSTRAINTS" /U *** /P *** /b 500 /S  "***.sqlserver.rds.aliyuncs.com,3433"  

    • 通过DTS/SSIS方式
    • 第一种:import/export data方式需要先保存SSIS包,然后修改Connection Manager的属性 ,如下图
      1111111

      第二种:直接使用SQL Server Business Intelligence Development Stuidio新建 SSIS包:

      222222

      • 特别说明

      不能在RDS通过下列两种方式进行大容量插入: 原因是基于安全考虑不提供上传文件到RDS 数据库服务器。

      第一种:

      BULK INSERT testdb.dbo.person_in
      FROM N'D:\trace\bcp.txt'
      WITH
      (
       CHECK_CONSTRAINTS 
      );  
      第二种:

      INSERT ... SELECT * FROM OPENROWSET(BULK...)
      


      • 总结

      大容量导入数据会带来更快的插入,解决了用户在有大量数据导入缓慢困惑,在阿里云数据库中,你可以使用五种方式来实现业务场景,但是基于镜像的主备关系,需要特别加入一个检查约束的选项,这是写这个最佳实践的目的,一旦镜像SUSPEND,不断有DUMP文件产生,一来需要时间来修正,二来DUMP文件也会不断占用空间,但不会影响用户的可用性和可靠性。有两种方式在RDS中不能实现,另外,还可以通过ODBC来实现大容量导入,具体请参见。希望这些对大家有用,特别是阿里云云数据库使用用户。


相关实践学习
使用SQL语句管理索引
本次实验主要介绍如何在RDS-SQLServer数据库中,使用SQL语句管理索引。
SQL Server on Linux入门教程
SQL Server数据库一直只提供Windows下的版本。2016年微软宣布推出可运行在Linux系统下的SQL Server数据库,该版本目前还是早期预览版本。本课程主要介绍SQLServer On Linux的基本知识。 相关的阿里云产品:云数据库RDS SQL Server版 RDS SQL Server不仅拥有高可用架构和任意时间点的数据恢复功能,强力支撑各种企业应用,同时也包含了微软的License费用,减少额外支出。 了解产品详情: https://www.aliyun.com/product/rds/sqlserver
目录
相关文章
|
1月前
|
SQL 数据库 数据安全/隐私保护
数据库数据恢复——sql server数据库被加密的数据恢复案例
SQL server数据库数据故障: SQL server数据库被加密,无法使用。 数据库MDF、LDF、log日志文件名字被篡改。 数据库备份被加密,文件名字被篡改。
|
1月前
|
存储 缓存 数据库
数据库数据删除策略:硬删除vs软删除的最佳实践指南
在项目开发中,“删除”操作常见但方式多样,主要分为硬删除与软删除。硬删除直接从数据库移除数据,操作简单、高效,但不可恢复;适用于临时或敏感数据。软删除通过标记字段保留数据,支持恢复和审计,但增加查询复杂度与数据量;适合需追踪历史或可恢复的场景。两者各有优劣,实际开发中常结合使用以满足不同需求。
110 4
|
2月前
|
SQL 数据库连接 Linux
数据库编程:在PHP环境下使用SQL Server的方法。
看看你吧,就像一个调皮的小丑鱼在一片广阔的数据库海洋中游弋,一路上吞下大小数据如同海中的珍珠。不管有多少难关,只要记住这个流程,剩下的就只是探索未知的乐趣,沉浸在这个充满挑战的数据库海洋中。
67 16
|
3月前
|
SQL 数据库
数据库数据恢复—SQL Server报错“错误 823”的数据恢复案例
SQL Server数据库附加数据库过程中比较常见的报错是“错误 823”,附加数据库失败。 如果数据库有备份则只需还原备份即可。但是如果没有备份,备份时间太久,或者其他原因导致备份不可用,那么就需要通过专业手段对数据库进行数据恢复。
|
4月前
|
数据库 Windows
SqlServer数据恢复—SqlServer数据库所在分区损坏的数据恢复案例
一块硬盘上存放的SqlServer数据库,windows server操作系统+NTFS文件系统。由于误操作导致分区损坏,需要恢复硬盘里的SqlServer数据库数据。
|
6月前
|
SQL 存储 Linux
从配置源到数据库初始化一步步教你在CentOS 7.9上安装SQL Server 2019
【11月更文挑战第16天】本文介绍了在 CentOS 7.9 上安装 SQL Server 2019 的详细步骤,包括配置系统源、安装 SQL Server 2019 软件包以及数据库初始化,确保 SQL Server 正常运行。
290 4
|
SQL 数据库
如何快速备份还原Sql Server 数据库
备份数据库 选择你要备份的数据库,鼠标右键单击,选择任务-备份   弹出备份数据库窗口,选择添加    弹出选择备份目标窗口,点击浏览,选择存放备份数据库的目录,输入文件名,后缀名输入.bak,点击确定,确定,备份完成     还原数据库  鼠标右键单击数据库,选择还原文件和文件   ...
1416 0

相关产品

  • 云数据库 RDS SQL Server 版