DTS开发记录(1)--系统总体结构

简介: (原文发表于2006-06-28 ,修正于2006-07-03)    在DTS开发记录(序)一文中,我们已经明白了当前这个Data Transfer System的主要目标和存在的难点与挑战。

    (原文发表于2006-06-28 ,修正于2006-07-03)

    在DTS开发记录(序)一文中,我们已经明白了当前这个Data Transfer System的主要目标和存在的难点与挑战。在接下来的一系列的文章中,我将记录我们开发中是如何解决这些难点、如何应付这些挑战的,有的技巧或方案可能还并不成熟,所以如果你有任何想法,请留言告诉我。

    本文就先从系统结构讲起。

    通过我们的分析归纳,确定了该DTS系统中存在三个核心的概念,这三个核心概念建立在如下基本概念之上:
(1)源列:参与数据传递的源数据表中的列。
(2)目标列:参与数据传递的目标数据表中的列。
(3)映射列:参与了数据映射的源列或目标列。注意,并不是所有的列都会参与映射,这是常见的情况。
(4)数据管道:用于屏蔽数据源和数据目标的类型(比如不同类型的数据库、数据文件等),在数据介质与DataTable之间进行数据传递的组件。
(5)数据大纲:通俗点,实际就是某个数据库表的表结构,称之为Data Schema。但是数据大纲是独立于数据库类型的。
(6)映射项:MappingItem,一个映射项与一个目标列是1:1对应的。如果一个目标列参与了映射,那么它就能并只能携带一个MappingItem。MappingItem包含了一个或多个源列如何映射到目标列。如果MappingItem中只包含一个源列,则称之为“简单映射”;如果MappingItem中包含了多个源列,则称之为“合并映射”。
(7)连接:IConnection,一个连接表示对一个数据源或数据目标的寻址。到目前为止,有两种类型的连接,数据库连接和文件连接。

    在上述基本概念的基础上,我们引出三个核心概念:
(1)数据映射:DataMapping,数据映射由一组映射项(MappingItem)组成,它包含了源数据大纲到目标数据大纲的完整映射关系。注意,数据映射与数据大纲绑定,但是并不与任何特定的数据库表绑定。这样,DataMapping可以运用在不同的数据库表上,只要数据库表结构兼容DataMapping要求的数据大纲即可。
(2)连接对:ConnectionPair,一个连接对包含了一个数据源和一个数据目标的连接信息。将连接对独立出来的好处是,当配置好一个连接对后,可以在不同的地方复用它,比如在编辑映射的时候、在数据验证的时候、在数据传送的时候等。
(3)数据传送引擎:DataTransferEngine,这是整个DTS系统的引擎部分,它基于一个连接对和一个数据映射,将数据从源表经过变换后传递到目标表。

    经过以上分析,我们可以将系统分为如下几个小工具:
(1)连接管理工具:用于配置、管理所有的连接对。所有的连接对可以序列化保存于系统的配置文件中。
(2)映射编辑工具:用于在源数据大纲和目标数据大纲之间建立、修改映射关系。映射编辑工具的产物是一个数据映射DataMapping,我们可以将之序列化后存储在.mapping文件中,日后可以重新加载、打开。
(3)执行工具:用于启动执行引擎,监控数据传递过程,并记录日志。
(4)数据验证工具:基于DataMapping,验证数据源表中的数据是否满足要求的转换规则,将不满足转换规则的源数据记录下来。
(5)日志查看工具:用于查看某次数据传递任务的执行情况,比如哪些数据传递失败了、失败的原因等等。

    这几个工具中,最重要的工具当属映射编辑工具和执行工具,就像DataMapping和DataTransferEngine是整个系统的核心一样。映射编辑工具的示意图如下:

    图中的数据适配器用于屏蔽数据库类型和文件类型的差异;大纲提取器从指定的数据库表或文件中提取数据大纲;编辑工具在源大纲与目标大纲之间建立简单或复杂的映射关系,将结果(即DataMapping)保存在.Mapping文件中。

    执行工具的示意图如下:

    执行工具首先通过数据适配器将数据从数据源中提取出来,得到与数据库类型无关的数据集,.NET中的DataSet和DataTable就可以作为这种数据库类型无关的介质。图中的Data在实现中即存放于DataTable。DataTransferEngine依据数据映射指定的转换规则将数据从源DataTable经过运算、变换然后存放到目标表。然后,在通过数据适配器将目标表提交到目的数据库。

    关于这个Data Transfer System结构中最主要的部分在这里粗略的说了一下,很多细微的地方都忽略了,细节会在后面的文章中补充进来。

转到:DTS开发记录(序)






目录
相关文章
|
8月前
|
XML Ubuntu 物联网
Linux系统中驱动入门设备树DTS(经典)
Linux系统中驱动入门设备树DTS(经典)
415 0
|
canal 存储 SQL
基于 MySQL + Tablestore 分层存储架构的大规模订单系统实践-数据同步 DTS 篇
前言 前文架构篇,可以看到 MySQL + Tablestore 非常适合大规模订单系统这一类需求场景。那么,我们首先要做的是,利用 CDC(Change Data Capture) 技术将订单数据实时从 MySQL 同步到 Tablestore 中。对于订单系统的数据同步,我们需要关注同步的稳定性、实时性。目前,存在多款工具可以实现这一功能,他们有的是开源工具如 Canal,有的是阿里云端服务如
1134 0
基于 MySQL + Tablestore 分层存储架构的大规模订单系统实践-数据同步 DTS 篇
|
数据库 数据可视化 SQL
DTS开发记录(序)
(原文发表于2006-06-27 ,修正于2006-07-03)    目前手头上正在负责一个DTS(这里的DTS是Data Transfer System的缩写)系统的开发,我打算写一系列的文章来记录这个开发的全过程,这个记录可以说是实时的--每当遇到一个重要问题或解决一个重要问题,我将记录之。
1167 0
|
数据库 数据处理
DTS开发记录(2)-- 数据管道及插件
通过前面两篇文章(已于2006-07-03修正)的介绍,我们已经大致明白了系统的目标的总体结构,从这篇文章开始,我们将逐渐深入到系统内部。    本文讲述数据管道,数据管道是用于在数据源/数据目标与DataTable之间进行数据传递的组件,它是与数据库类型和文件类型相关的,数据从数据源经过数据管道后,就变成与数据源类型无关的数据了,这样映射编辑和数据引擎便能对它们进行一致的处理。
817 0
|
数据库 关系型数据库 Oracle
DTS开发记录(3)-- 连接与连接对
在 DTS开发记录(2)-- 数据管道及插件 一文中,我们介绍了数据管道,IDataPipeFactory的CreateDataPipe方法需要一个IConnection参数,这个参数就表示一个连接。
879 0
DTS开发记录(4)-- 映射列
在DTS开发记录(1)--系统总体结构 一文中,我们介绍到映射列:“参与了数据映射的源列或目标列。注意,并不是所有的列都会参与映射,这是常见的情况。”1.映射列分为:源映射列和目标映射列。     public interface IMappingColumn    {        str...
962 0
|
数据库 关系型数据库 Oracle
DTS开发记录(5)-- 挑战增量导出
增量导出恐怕是DTS系统中最艰难的部分了,我们曾考虑过很多方案,最后都因为需要表大纲做一定的假设而不具备通用性而放弃。有很多效率较高的方案,由于为了追求通用性而无法实现,因为现实的情况比我们理想的要复杂许多。
1090 0
|
数据库
DTS开发记录(6)-- 数据映射
在DTS开发记录(4)-- 映射列一文中,我们详细的讨论了参与映射的源列和目标列,在拥有了映射列的基本概念的基础上,我们可以讨论数据映射DataMapping了。    数据映射主要由一组映射项(MappingItem)组成,它包含了源数据大纲到目标数据大纲的详细的完整的映射关系。
1075 0
|
容器
DTS开发记录(7)-- 灵活的引擎 IAgileEngine
数据引擎是数据传递系统(DTS)的核心,正如游戏引擎是PC游戏的核心一样。    IAgileEngine从目前手上的DTS系统中不断的重构完善出来,虽然IAgileEngine已经不局限于在本DTS系统中使用,但是,我还是打算在这个系列文章中来介绍它。
928 0
|
数据库
DTS开发记录(8)-- 主键的影响
对于数据源向同一数据目标导出(我们称之为“数据汇集”)和增量导出来说,对主键的处理也是一个大的挑战。    我先定义一下在本DTS系统中主键(PrimaryKey)的含义:PrimaryKey 表示主键或联合主键,PrimaryKey并不是针对某个数据库表的,而是针对某个特定的DataMapping而言的,它用于在数据迁移过程中来唯一确定数据源或数据目标中每条记录。
906 0