DTS开发记录(8)-- 主键的影响

简介: 对于数据源向同一数据目标导出(我们称之为“数据汇集”)和增量导出来说,对主键的处理也是一个大的挑战。    我先定义一下在本DTS系统中主键(PrimaryKey)的含义:PrimaryKey 表示主键或联合主键,PrimaryKey并不是针对某个数据库表的,而是针对某个特定的DataMapping而言的,它用于在数据迁移过程中来唯一确定数据源或数据目标中每条记录。
    对于数据源向同一数据目标导出(我们称之为“数据汇集”)和增量导出来说,对主键的处理也是一个大的挑战。
    我先定义一下在本DTS系统中主键(PrimaryKey)的含义:PrimaryKey 表示主键或联合主键,PrimaryKey并不是针对某个数据库表的,而是针对某个特定的DataMapping而言的,它用于在数据迁移过程中来唯一确定数据源或数据目标中每条记录。
    所以,本DTS系统中的PrimaryKey很多时候就是数据库表的主键,有些时候则可能不是,只要它能满足“唯一确定数据源或数据目标中每条记录”的要求就可以。 PrimaryKey结构如下:
    [Serializable]
    
public   class  PrimaryKey
    {
        
private  IList < string >  subKeyList  =   new  List < string > ();

        
#region  AddSubKey
        
public   void  AddSubKey( string  subKey)
        {
            
foreach  ( string  key  in   this .subKeyList)
            {
                
if  (key  ==  subKey)
                {
                    
return ;
                }
            }

            
this .subKeyList.Add(subKey);
        } 
        
#endregion

        
#region  Clear
        
public   void  Clear()
        {
            
this .subKeyList.Clear();
        } 
        
#endregion

        
#region  IsUnionPKey
        
public   bool  IsUnionPKey
        {
            
get
            {
                
return  ( this .subKeyList.Count  >   1 );
            }
        }
        
#endregion

        
#region  KeyColumnList
        
public  IList < string >  KeyColumnList
        {
            
get
            {
                
return   this .subKeyList;
            }
        } 
        
#endregion
}


    在DTS开发记录(5)-- 挑战增量导出 一文中,我们已经知道,目前获取增量的方法只有“比对”--即一个字段一个字段的比较。在通过“比对”分析增量的时候,对于Insert增量和Update增量,通过是非常容易识别的(虽然效率不高,但是仍然可行)。但是对于Delete增量了?

1.Delete增量对主键的要求

    Delete增量需要通过反向比较才可获得,即从数据目标中取出一条记录,然后在数据源中查看是否有匹配的记录。这个匹配如何进行了?通过主键。是的,当然是通过主键进行定位,但是如果数据源的主键没有参与映射、或者数据源主键参与了复杂的映射或变形,则就不那么容易了。我们来详细分析一下。
(1)数据源主键没有参与映射。
    如果数据源主键没有参与映射,那么对应的数据目标中也不会出现与数据源主键相应的值,因而无法通过数据目标中的记录来反向定位数据源中的记录。
(2)数据源主键参与了变形。
    如果数据源主键参与了变形,则根据数据目标记录中的字段值来进行逆向求解数据源主键的值非常困难,而且很多变形公式是不可逆的。
(3)数据源主键参与了合并。
    与数据源主键参与了变形的情况一样,逆向求解合并表达式更是困难。而且,绝大多数合并表达式都不是可以逆向求解的,因为参与合并的源列至少有两个,这更大的增加的变数。
    
    所以,要想通过“比对”完成Delete增量,必须要求主键满足以下条件:
(1)数据源主键必须参与映射。即PrimaryKey.KeyColumnList属性中的每个列都要参与映射。
(2)数据源主键在映射中不能携带变形,即对应的IMappingItem的TransformRule属性值为null。
(3)数据源主键不得参与合并映射。

2.“数据汇集”对主键的要求

    我们假设这样的情况:各个省局需要向国家局定时导出自己的财政数据(存放于一个数据表中),所有省局的财政数据表的结构完全一致,而国家局的财政数据表与省局的稍有差别。这是一个典型的“数据汇集”的例子。
    省局的财政数据表中有唯一主键ID,但是这个主键对应的映射目标键在国家局的财政数据表中则不再是主键了,因为不同的省局的财政数据中很可能存在ID相同的记录。这种”主键失效“的情形在“数据汇集”应用中是经常碰到的。
    在这种情况中,不仅Delete增量无法识别,而且Insert增量和Update增量也无法识别了。因为无法从目标数据进行反向定位数据源中的记录了。
    通常,在“数据汇集”的应用中,比如上面的例子,国家局的财政数据表都会有个字段表明对应的记录来自于哪个省局,这个字段非常重要,正是有了它,我们才能进行增量分析。这个字段的值对于同一个省局来说是不变的,所以在数据源中我们可以虚拟一个名为“常量值辅助主键”的列,这个列并不实际存在,但是它参与映射,并且这个列的值是恒定不变的。
    通过“常量值辅助主键”和原来的数据源主键的结合,我们则可以解决“数据汇集”应用中主键失效的问题。
    所以,我们可以加上下面这条对主键的要求:
(4)如果需要进行数据汇集,则可能需要设置“常量值辅助主键”。
    
    如果启用了“常量值辅助主键”,则要求:
(1)常量值辅助主键必须参与映射。
(2)常量值辅助主键只能参与一个映射。
(3)常量值辅助主键的匹配目标列必须也是主键。
(4)常量值辅助主键不得参与合并映射。
(5)常量值辅助主键不得参与变形。


2006.07.28 附加:

比对增量要求:
(1)源PrimaryKey中的每个子键都参与简单映射=》才能从目标记录定位源记录=》发现delete增量
(2)设置目标PrimaryKey=》从源记录定位目标记录=》发现Update和Add增量。如果是数据汇集,则需要“常量值辅助主键”的协助。

触发器增量要求:
(1)源PrimaryKey(加上“常量值辅助主键”)与目标PrimaryKey是一一对应的关系=》通过源PrimaryKey的值能定位目标记录=》确定delete增量

转到:DTS开发记录(序)

目录
相关文章
|
5月前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用问题之dts是否支持传输数据到mc主键表2.0
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
数据库 数据可视化 SQL
DTS开发记录(序)
(原文发表于2006-06-27 ,修正于2006-07-03)    目前手头上正在负责一个DTS(这里的DTS是Data Transfer System的缩写)系统的开发,我打算写一系列的文章来记录这个开发的全过程,这个记录可以说是实时的--每当遇到一个重要问题或解决一个重要问题,我将记录之。
1156 0
|
数据库 监控 数据库连接
DTS开发记录(1)--系统总体结构
(原文发表于2006-06-28 ,修正于2006-07-03)    在DTS开发记录(序)一文中,我们已经明白了当前这个Data Transfer System的主要目标和存在的难点与挑战。
1029 0
|
数据库 数据处理
DTS开发记录(2)-- 数据管道及插件
通过前面两篇文章(已于2006-07-03修正)的介绍,我们已经大致明白了系统的目标的总体结构,从这篇文章开始,我们将逐渐深入到系统内部。    本文讲述数据管道,数据管道是用于在数据源/数据目标与DataTable之间进行数据传递的组件,它是与数据库类型和文件类型相关的,数据从数据源经过数据管道后,就变成与数据源类型无关的数据了,这样映射编辑和数据引擎便能对它们进行一致的处理。
807 0
|
数据库 关系型数据库 Oracle
DTS开发记录(3)-- 连接与连接对
在 DTS开发记录(2)-- 数据管道及插件 一文中,我们介绍了数据管道,IDataPipeFactory的CreateDataPipe方法需要一个IConnection参数,这个参数就表示一个连接。
874 0
DTS开发记录(4)-- 映射列
在DTS开发记录(1)--系统总体结构 一文中,我们介绍到映射列:“参与了数据映射的源列或目标列。注意,并不是所有的列都会参与映射,这是常见的情况。”1.映射列分为:源映射列和目标映射列。     public interface IMappingColumn    {        str...
950 0
|
数据库 关系型数据库 Oracle
DTS开发记录(5)-- 挑战增量导出
增量导出恐怕是DTS系统中最艰难的部分了,我们曾考虑过很多方案,最后都因为需要表大纲做一定的假设而不具备通用性而放弃。有很多效率较高的方案,由于为了追求通用性而无法实现,因为现实的情况比我们理想的要复杂许多。
1076 0
|
数据库
DTS开发记录(6)-- 数据映射
在DTS开发记录(4)-- 映射列一文中,我们详细的讨论了参与映射的源列和目标列,在拥有了映射列的基本概念的基础上,我们可以讨论数据映射DataMapping了。    数据映射主要由一组映射项(MappingItem)组成,它包含了源数据大纲到目标数据大纲的详细的完整的映射关系。
1065 0
|
容器
DTS开发记录(7)-- 灵活的引擎 IAgileEngine
数据引擎是数据传递系统(DTS)的核心,正如游戏引擎是PC游戏的核心一样。    IAgileEngine从目前手上的DTS系统中不断的重构完善出来,虽然IAgileEngine已经不局限于在本DTS系统中使用,但是,我还是打算在这个系列文章中来介绍它。
915 0
|
数据库
DTS开发记录(9)-- 数据迁移任务 DataTask
在DTS开发记录(1)--系统总体结构 一文中,我们已经看到,一次数据传递任务基于一个连接对和一个数据映射进行。但是之前,我们并没有提到“数据迁移任务”这个元素。随着设计的演化,我们发现一个数据任务已经不再仅仅是一个连接对加上一个数据映射了。
1043 0