追踪记录每笔业务操作数据改变的利器——SQLCDC

本文涉及的产品
云数据库 RDS SQL Server,基础系列 2核4GB
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
简介: 对于大部分企业应用来用,有一个基本的功能必不可少,那就是Audit Trail或者Audit Log,中文翻译为追踪检查、审核检查或者审核记录。

对于大部分企业应用来用,有一个基本的功能必不可少,那就是Audit Trail或者Audit Log,中文翻译为追踪检查、审核检查或者审核记录。我们采用Audit Trail记录每一笔业务操作的基本信息,比如操作的基本描述、操作时间、操作者等。对于一些安全级别比较高的应用,或者操作一些比较敏感的数据,我们甚至需要记录该笔业务操作引起的数据的改变。具体来说,这里的“数据改变”指的是每一条影响的记录在操作执行前后的变化。对于添加的记录,需要记录下新插入的记录;对于删除的记录,需要记录下原来的记录;对于更新的记录,则需要同时记录下更新前后的记录。

说到这里,很多人都会想到采用触发器的方式来实现对数据改变的捕捉。但是这种实现方案具有一个最大的局限:由于触发器是在数据操作所在事务范围内执行的,所有会带来性能的问题,严重的话还会因为触发器的执行导致事务超市。所以在这里,我们介绍一种更好的解决方案:SQLCDC

目录 
一、SQLCDC简介 
二、在数据库级别开启CDC 
三、为某个数据表开启CDC 
四、记录添加记录的数据改变 
五、记录删除数据的数据改变 
六、记录更新记录的数据改变

一、SQLCDC简介

CDC的全名为Change Data Capture,顾名思义,就是用于追踪和捕捉数据改变。CDC是在SQL Server 2008中才出现的新特性,而这个特性则在很早之前就出现在了Oracle中。对于SQL Server之前版本来说,在没有CDC的情况下,如果需要记录基于某个数据表的数据改变,我们只能采用触发器,具体来说就是通过手工创建After Insert、After Update和After Delete触发器去记录变化的数据。而CDC给了我们一种更为方便、易用和省心的方式去记录某个数据表的历史操作。

二、在数据库级别开启CDC

在默认的情况下,数据库的CDC特性是被关闭的,你可以通过系统表sys.databasesis_cdc_enabled字段确定某个数据库的CDC是否开启。如果在默认的情况下,我执行如下的SQL语句查看数据库TestDb的CDC是否开启,你将会看到该字段的值为0。image

你可以通过执行系统存储过程sys.sp_cdc_enable_db为当前数据库开启CDC特性。下面的T-SQL代码片断中,我们通过执行该存储过程为TestDb打开了CDC特性。

Use TestDb
Go
Exec sys.sp_cdc_enable_db
Go

三、为某个数据表开启CDC

由于CDC用于记录基于某个数据表的数据改变,所以在当前数据库CDC开启的情况下,你还需要显式地为某个数据表开启CDC特性。作为演示,我们通过如下T-SQL在TestDb下创建了一个简单的Users表,它仅仅具有三个字段:Id、Name和Birthday。

CREATE TABLE [dbo].[Users](
    [Id] [varchar](50) PRIMARY KEY,
    [Name] [nvarchar](50) NOT NULL,
    [Birthday] [date] NOT NULL)

数据表的CDC特性的开启通过执行sys.sp_cdc_enable_table存储过程实现。调用该存储过程的最简的方式就是指定数据表的Schema、名称和用于提取改变数据必须具有的权限(角色)。我通过执行下面的T-SQL将我们创建的Users表的CDC特性打开,其中@role_name参数被设置成NULL,表明我不对读取改变数据操作进行授权。sys.sp_cdc_enable_table具有很多参数,至于相应参数所影响的CDC行为,可以参考SQL Server 2008在线文档。

Use TestDb
Go
Exec sys.sp_cdc_enable_table 'dbo', 'Users', @role_name = NULL
Go

需要注意的是,CDC实际上建立在SQL Server Agent之上的,所以在执行上述T-SQL之前需要启动SQL Server Agent。当某个数据表的CDC特性被开启之后,系统会为创建一个用于保存数据变化的追踪表(Tracking Table)。该表的Schema为cdc,命名方式为被追踪表的表名后加“CT”后缀。执行上面一段T-SQL之后,会有如下一个系统表被创建出来,我们发现Users表的三个字段也在该表中。此外。该表还具有5个额外字段:__$start_lsn、__$end_lsn、__$seqval、__$operation 和__$update_mask,表示日志系列号(Log Sequence Number)、操作(删除、插入、修改前和修改后)信息。

image

四、记录添加记录的数据改变

现在我们就可以来试验CDC针对某个数据表的数据改变的捕捉功能了,我们先来试试记录的添加操作。为此,我们执行如下一段T-SQL,插入两笔User记录。

Insert Into Users(Id, Name, Birthday)
Values ('001','Foo','1981-08-24')
 
Insert Into Users(Id, Name, Birthday)
Values ('002','Bar','1981-08-24')

然后通过如下的T-SQL查看cdc.dbo_Users_CT表的数据是否将添加操作涉及到的数据改变保存起来。从查询结果我们清晰地看到,上面添加的两笔记录已经被记录下来,而__$operation字段为2表示的是“插入”操作。

image

五、记录更新数据的数据改变

接下来我们来CDC对更新操作的追踪记录,为此我们通过下面的T-SQL改变了用户Foo的Birthday。

Update Users 
Set Birthday = '1982-7-10' 
Where Name = 'Foo'

再次执行对于cdc.dbo_Users_CT的全表查询,你会看到这次多了两笔记录。其中第3条记录的是修改之前的数据,而第四条则是修改之后的数据,它们的__$operation字段德值分别为34

image

在这里值得一提的是__$update_mask字段的值,它表示的记录更新操作改变的字段。这是一个以16进制表示的数字,在进行对修改字段进行判断的时候需要将其转换成2进制。上述的更新操作对应的__$update_mask值为0x04,转化成2进制就是100,这三位分别代表3个字段。不过这里的顺序是从右到左,所以100这三位表示的字段为Birthday、Name和Id。1表示改变,0则表示保持不变。由于在上面的T-SQL中,我们只改动了Birthday,这个和100这个值是吻合的。

六、记录删除记录的数据改变

我们最后来演示当我们对记录实施删除操作的时候,CDC会为我们记录下怎样的数据。现在我们执行如下的T-SQL将Users表中所有的记录均删除。

Delete From Users

查看cdc.dbo_Users_CT的记录,多出的两笔记录正式我们删除的User记录,__$operation字段的值为1表示“删除”操作。

image

本篇文章仅仅是简单介绍SQLCDC的基本原理和大体上的使用方式,这篇文章《Introduction to Change Data Capture (CDC) in SQL Server 2008[转]》会给你更加详尽的介绍。如果你想深入研究SQLCDC,还是参考SQL Server 2008在线文档。

一个完整的用于追踪数据改变的解决方案

一个完整的Audit Trail解决方案,不仅可以记录每一笔业务操作的信息(比如操作时间、操作者等),并且可以追踪每一笔业务引起的说有数据的改变(如果需要)。

目录 
一、数据表的设计 
二、数据变化的表示 
三、AuditLog基本信息的写入 
四、通过SQLCDC追踪源表数据变化 
五、删除操作的TransactionId如何被记录? 
六、通过SQL Job转储AuditLog详细信息 
七、代码生成的应用

一、数据表的设计

clip_image001在数据库中,我们通过如右图所示的具有主子关系的两个表存储AuditLog相关信息。我们将“事务”作为我们进行追踪的单位,不过这里的讲的“事务”更多地指业务处理事务的概念。每一个被追踪的事务在AuditLog表具有一条匹配的记录,该记录表示该事务的基本信息:UserName(操作者)、AuditTime(操作时间)、Activity(可以看成是对事物的命名)和Description(事务补充性的描述)。主键TransactionId唯一标识一个事务。

子表AuditLogData记录事务详细的信息,即事务所引起的数据变化。一个完整的业务逻辑往往涉及到对多个数据表、多条记录的操作。而AuditLogData每一条记录表示某个事务针对某个单一数据表所带来的数据变化,而SourceTable字段表示源表的名称。而DataChange字段以XML的形式表示数据的改变,它具有如下的格式。

二、数据变化的表示

数据操作类型无外乎添加、更新和删除,我们通过不同的XML结构表示不同操作引起的数据改变。具体来说,对于添加操作,我们需要记录下插入的记录;对于删除操作,需要记录下原来的记录;而对于数据更新,则需要同时记录下更新先后的记录。

举个例子,假设我们具有一个Users表,它具有三个基本字段:Id、Name和Birthday。下面的XML分别表示添加、删除和更新操作后我们需要记录下的数据变化。

添加:

1: <?xml version="1.0" encoding="utf-8" ?>   
2: <cdc operation="insert">   
3:   <current>   
4:     <Id type="VARCHAR(50)">001</Id>   
5:     <Name type="NVARCHAR(50)">Foo</Name>   
6:     <BirthDay type="DATE">1981-08-24</BirthDay>
7:   </current>   
8: </cdc>

删除:

1: <?xml version="1.0" encoding="utf-8" ?>   
2: <cdc operation="delete">   
3:   <original>   
4:     <Id type="VARCHAR(50)">001</Id>   
5:     <Name type="NVARCHAR(50)">Foo</Name>   
6:     <BirthDay type="DATE">1981-08-24</BirthDay>   
7:   </original>   
8: </cdc>

更新:

1: <?xml version="1.0" encoding="utf-8" ?>   
2: <cdc operation="update">   
3:   <original>   
4:     <Id type="VARCHAR(50)">001</Id>   
5:     <Name type="NVARCHAR(50)">Foo</Name>   
6:     <BirthDay type="DATE">1981-08-24</BirthDay>   
7:   </original>   
8:   <current>   
9:     <Id type="VARCHAR(50)">001</Id>  
10:     <Name type="NVARCHAR(50)">Bar</Name>  
11:     <BirthDay type="DATE">1982-07-10</BirthDay>  
12:   </current>  
13: </cdc>

当然,你也可以根据需要自定义XML的结构。

三、AuditLog基本信息的写入

我们现在我们的目标就是如何将追踪到的基于一个事务相关的信息写入到上面我们创建的两个表中。主表AuditLog的信息是很容易被写入的,比如你可以定义像下面一样的一个AuditLogger类。

   1: public class AuditLogger
   2: {
   3:     public void Write(string activity)
   4:     { }
   5:  
   6:     public void Write(string activity, string description)
   7:     { }
   8: }

AuditLogger的Write方法进行传入了Activity和Description,而没有TransactionId、UserName和AuditTime。其中AuditTime自然是当前时间,而UserName应该是登录系统的用户。而对于TransactionId,我们应该采用上下文的方式来获取,具体原因会在下面谈到。如果你直接使用System.Transactions事务实现我们进行追踪的“事务”,你可以直接使用当前事务(Transaction.Current)的DistributedIdentifier或者LocalIdentifier。

   1: var transactionId = Transaction.Current.TransactionInformation.DistributedIdentifier;
   2: //Or
   3: var transactionId = Transaction.Current.TransactionInformation.LocalIdentifier;

基于AuditLog表的事务基本信息的日志好解决,那么我们如何将事务引起的事务变化记录到AuditLogData表中呢?这样的工作我们完全实现在SQL Server中

四、通过SQLCDC追踪源表数据变化

追踪记录每笔业务操作数据改变的利器——SQLCDC》介绍了一种有效记录基于某个数据表数据变化的方式:SQLCDC,在这里我们直接利用它来记录AuditLog的详细信息。当我们为某个表(比如Users)开启了CDC特性之后,SQL Server会为之创建一个相应的CT表(Users_CT),在默认的情况下Users_CT包含与Users表的所有字段。如果你不希望CDC追踪所有的字段,你可以显式地设定具体的字段。

AuditLogData表中有一个字段TransactionId表示记录属于哪个具体的事务,为了让CDC可以记录下正确TransactionId,需要在每一个被追踪的表中添加这么一个额外的字段。这个应该不是什么问题,比如我们的每个表中都具有6个系统字段:TransactionId、VersionNo、CreatedBy、CreatedTime、LatestUpdatedBy和LatestUpdatedTime。

由于每个数据表都具有了一个TransactionId字段,那么在进行数据提交的时候,需要将当前事务的ID为之赋值,这就是为什么我推荐采用上下文的方式来获取当前TransactionId的原因。但是,还有一个问题没有解决——数据删除操作的TransactionId如何被记录下来呢?

五、删除操作的TransactionId如何被记录?

由于代表当前事务的TransactionId最终会通过Insert或者Update SQL语句写入数据表,但是对于删除操作呢?由于我们直接调用Delete语句将相应的数据操作,表示当前删除操作所在的事务是无法被写入的,最终CDC记录下来的数据是无法反映出删除的记录隶属于哪个事务。

由于最终对数据库操作都是通过SQL提交的,或者是存储过程,或者是SQL文本。为了解决这个问题,我们只需要改变我们的SQL脚本,在Delete执行之前执行Update语句写入新的TransactionId

也就是说,对于一个删除操作,实际上是先做Update,最后做Delete。在这种情况下,CDC会为你记录下三条记录,前两条是为Update记录的,最后一条是为Delete记录的。为了区分CDC追踪的记录是正常的Update还是为了Delete而进行的Update,我们可以做一些标记。比如你可以在TransactionId的值之前添加一个前缀,表示Update操作是为Delete而作的。

六、通过SQL Job转储AuditLog详细信息

clip_image002CDC仅仅会将基于某个表的数据改变记录到基于该表的CT表中,最终我们需要将这些CT表中的数据转存到我们指定的AuditLogData表中,这个工作可以通过SQLJob来实现。你自行创建一个SQL Job实现从若干CT表到AuditLogData的数据转存,并根据你的需要(主要是实时性的需要)配制Job执行的时间或者间隔。右图揭示了AuditLog详细信息是如何一步步地被记录的。

七、代码生成的应用

在这个解决方案中,我们需要一个不可或缺的东西:代码生成器。它用于自动生成如下的SQL脚本:为某个表开启CDC特性并指定追踪字段的T-SQL脚本,和进行AuditLog详细信息转存(丛CT表到AuditLogData表)的SQL Job脚本。关于代码生成,可以参考《与VS集成的若干种代码生成解决方案


作者: EricHu
出处: http://blog.csdn.net/chinahuyong
微博: 腾讯
Email: 406590790@qq.com
QQ 交流:406590790 
平台博客: 【CSDN】http://blog.csdn.net/chinahuyong
         【CNBLOGS】http://www.cnblogs.com/huyong
关于作者:高级工程师、信息系统项目管理师、DBA。专注于微软平台项目架构、管理和企业解决方案,多年项目开发与管理经验,曾多次组织并开发多个大型项目,精通DotNet,DB(SqlServer、Oracle等)技术。熟悉Java、Delhpi及Linux操作系统,有扎实的网络知识。在面向对象、面向服务以及数据库领域有一定的造诣。现从事DB管理与开发、WinForm、WCF、WebService、网页数据抓取以及ASP.NET等项目管理、开发、架构等工作。
如有问题或建议,请多多赐教!
本文版权归作者和CNBLOGS博客共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,如有问题,可以通过邮箱或QQ 联系我,非常感谢。

相关实践学习
使用SQL语句管理索引
本次实验主要介绍如何在RDS-SQLServer数据库中,使用SQL语句管理索引。
SQL Server on Linux入门教程
SQL Server数据库一直只提供Windows下的版本。2016年微软宣布推出可运行在Linux系统下的SQL Server数据库,该版本目前还是早期预览版本。本课程主要介绍SQLServer On Linux的基本知识。 相关的阿里云产品:云数据库RDS&nbsp;SQL Server版 RDS SQL Server不仅拥有高可用架构和任意时间点的数据恢复功能,强力支撑各种企业应用,同时也包含了微软的License费用,减少额外支出。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/sqlserver
相关文章
|
4月前
|
存储 文件存储 对象存储
就软件研发问题之修改数据流动以及删除数据流动的问题如何解决
就软件研发问题之修改数据流动以及删除数据流动的问题如何解决
|
5月前
|
存储 调度 数据库
软件研发核心问题之数据从哪里来,主要包括哪些类型的数据的问题如何解决
软件研发核心问题之数据从哪里来,主要包括哪些类型的数据的问题如何解决
文本,好看的设计------我独自升级,六芒星技能表,可以用来判断是否在能力值之内的事情,使用六芒星可以显示能力之内,能力之外的事情,用以判断
文本,好看的设计------我独自升级,六芒星技能表,可以用来判断是否在能力值之内的事情,使用六芒星可以显示能力之内,能力之外的事情,用以判断
文本,好看的设计------我独自升级,六芒星技能表,可以用来判断是否在能力值之内的事情,使用六芒星可以显示能力之内,能力之外的事情,用以判断
|
7月前
|
Java 数据库连接 API
对象变更记录objectlog工具(持续跟新)
记录单个对象属性变化的日志工具,工具采用spring切面和mybatis拦截器相关技术编写了api依赖包,以非侵入方式实现对标记的对象属性进行记录,仅需要导入依赖即可,几乎不需要对原系统代码改动.
|
SQL 安全 关系型数据库
案例07-在线人员列表逻辑混乱
在线人员列表逻辑混乱
|
存储 监控 Oracle
定位任意时刻性能问题,持续性能分析实践解析
定位任意时刻性能问题,持续性能分析实践解析
定位任意时刻性能问题,持续性能分析实践解析
|
运维 JavaScript 前端开发
记录两次多端排查问题的过程
记录两次多端排查问题的过程
|
JavaScript
怎么实现监测数组的变化
怎么实现监测数组的变化
123 0
|
BI 数据处理 Scala
报表统计_执行框架_旧模块改造 | 学习笔记
快速学习报表统计_执行框架_旧模块改造
114 0
报表统计_执行框架_旧模块改造 | 学习笔记
|
数据采集 分布式计算 监控
网站流量日志分析—数据入库—含义和 ETL 本质解释|学习笔记
快速学习网站流量日志分析—数据入库—含义和 ETL 本质解释
427 0
网站流量日志分析—数据入库—含义和 ETL 本质解释|学习笔记