用脚本定时监控SQL Server主从一致性

本文涉及的产品
云数据库 RDS SQL Server,基础系列 2核4GB
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
简介: 原文:用脚本定时监控SQL Server主从一致性用脚本定时监控SQL Server主从一致性 首先说一下我们的环境 我们使用的是事务复制,复制是单向的,主服务器和从服务器都在同一个机房,当然不同机房也可以,只需要改一下IP和端口 下面的脚本在我们的SQLServer2008上已经应用,暂时...
原文: 用脚本定时监控SQL Server主从一致性

用脚本定时监控SQL Server主从一致性

首先说一下我们的环境

我们使用的是事务复制,复制是单向的,主服务器和从服务器都在同一个机房,当然不同机房也可以,只需要改一下IP和端口

下面的脚本在我们的SQLServer2008上已经应用,暂时没有发现问题,当然,如果大家使用过程中有发现问题欢迎向我反馈o(∩_∩)o 

 

首先,我们为什麽要校验呢?

我们知道因为网络延迟,或者从库有写入的情况(当然一般我们在订阅端会设置为db_datareader,不允许写)会造成主从数据不一致的情况

无论是SQL Server还是MySQL,所以我们就需要进行数据校验,以便大概知道我们的数据什么时候开始不一致

而校验是不可能每时每刻都做校验的,因为需要读取全表数据,对性能会有影响

 

 

下面的过程只需要远程上去从服务器,也就是订阅服务器上面做就可以了,完全不需要远程主服务器也就是发布服务器

线上我们做复制的表都比较小,数据量也不大

我们做复制的最大一个表是600MB的表 

600MB的表 校验时间是1 分钟,那么可以推算 50000MB(50GB)的表 大概80分钟 ,至于这个时间根据不同的环境 硬件和软件 所需的校验时间可能会有所不同

我们使用的服务器是DELL R720 

 

这个脚本原理很简单,就是利用SQL Server的job每天定时执行来获取主从上面的数据,从而判断主从数据是否一致

废话不说了,上脚本


1、在订阅端执行查看哪些表做了复制

首先你需要知道你现在哪些表是做了复制的,当然有些人会到发布服务器上去看,点击几下按钮,其实在订阅端是有视图可以看出

当前哪些表做了复制的

--在订阅端执行
use [Task] -- 要复制的库
GO



select article from dbo.MSreplication_objects
group by article
GO

有9个表做了复制

 

2、建立linkedserver

--建立linkedserver
USE [master]
GO

DECLARE @IP NVARCHAR(MAX)
DECLARE @Login NVARCHAR(MAX)
DECLARE @PWD NVARCHAR(MAX)

SET @Login = N'xxx' --Do
SET @PWD = N'xxx'  --Do
SET  @IP ='192.168.100.6,1433'


EXEC master.dbo.sp_addlinkedserver @server = @IP,@srvproduct = N'SQL Server'

EXEC master.dbo.sp_serveroption @server = @IP,@optname = N'collation compatible', @optvalue = N'false'
EXEC master.dbo.sp_serveroption @server = @IP,@optname = N'data access', @optvalue = N'true'
EXEC master.dbo.sp_serveroption @server = @IP, @optname = N'dist',@optvalue = N'false'
EXEC master.dbo.sp_serveroption @server = @IP, @optname = N'pub',@optvalue = N'false'
EXEC master.dbo.sp_serveroption @server = @IP, @optname = N'rpc',@optvalue = N'true'
EXEC master.dbo.sp_serveroption @server = @IP, @optname = N'rpc out',@optvalue = N'true'
EXEC master.dbo.sp_serveroption @server = @IP, @optname = N'sub',@optvalue = N'false'
EXEC master.dbo.sp_serveroption @server = @IP,@optname = N'connect timeout', @optvalue = N'0'
EXEC master.dbo.sp_serveroption @server = @IP,@optname = N'collation name', @optvalue = NULL
EXEC master.dbo.sp_serveroption @server = @IP,@optname = N'lazy schema validation', @optvalue = N'false'
EXEC master.dbo.sp_serveroption @server = @IP,@optname = N'query timeout', @optvalue = N'0'
EXEC master.dbo.sp_serveroption @server = @IP,@optname = N'use remote collation', @optvalue = N'true'
EXEC master.dbo.sp_serveroption @server = @IP,@optname = N'remote proc transaction promotion',@optvalue = N'true'

USE [master]
EXEC master.dbo.sp_addlinkedsrvlogin 
@rmtsrvname = @IP,
@locallogin = NULL, 
@useself = N'False', 
@rmtuser = @Login,
@rmtpassword = @PWD
View Code

建立linkedserver的目的是连接到发布服务器获取数据,如果是不同机房,那么只需要改IP为公网IP和端口就可以了

 

3、在订阅服务器上建表

在订阅端建立两个表,这两个表的作用是保存校验数据

我说一下Repl_NeedMonitor表的need_monitor 字段,如果你有一天不想监控某个表了,你需要将那个表的need_monitor 字段改为0就可以了

Repl_NeedMonitor表需要预先插入你要监控的表,在这里第一步的“在订阅端执行查看哪些表做了复制”为了这一步做铺垫的

执行完第一步,你知道有哪些表需要做监控,然后插入数据到Repl_NeedMonitor表就可以了

---建表
USE [Task]  --Do  
GO

--要监控的表
IF EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[Repl_NeedMonitor]') AND type in (N'U'))
        BEGIN
            DROP TABLE [dbo].[Repl_NeedMonitor]
        END
CREATE TABLE [dbo].[Repl_NeedMonitor]
    (
      id INT IDENTITY(1, 1)
             PRIMARY KEY ,
      tbname NVARCHAR(400) UNIQUE ,
      need_monitor INT ,  --是否需要监控
      update_time DATETIME
    )


--监控情况表
IF EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[Repl_MonitorStatus]') AND type in (N'U'))
        BEGIN
            DROP TABLE [dbo].[Repl_MonitorStatus]
        END
CREATE TABLE [dbo].[Repl_MonitorStatus]
    (
      id INT IDENTITY(1, 1)
             PRIMARY KEY ,
      tbname NVARCHAR(500) ,
      is_Consistency INT ,  -- 一致为1,  不一致为0
      master_record BIGINT , --主库表记录数
      slave_record BIGINT ,  --从库表记录数
      update_time DATETIME  --更新时间
    )


--插入要监控的表数据
INSERT INTO [Repl_NeedMonitor]   --Do  
        ( [tbname] ,
          [need_monitor] ,
          [update_time]
        )
VALUES  ( N'Site' , -- tbname - nvarchar(500)
          1 , -- need_monitor - int
          GETDATE()  -- update_time - datetime
        )

SELECT * FROM [Repl_NeedMonitor]

Repl_NeedMonitor

 

4、创建执行数据一致性校验存储过程

USE [Task]
GO
/****** Object:  StoredProcedure [dbo].[usp_ConsistencyCheck]    Script Date: 03/19/2015 15:36:36 ******/
SET ANSI_NULLS ON
GO
SET QUOTED_IDENTIFIER ON
GO
-- =============================================
-- Author:        <桦仔>
-- Create date: <2015.03.08>
-- Description:    <执行数据一致性校验>  
-- =============================================
CREATE PROCEDURE [dbo].[usp_ReplConsistencyCheck] ( @tbname NVARCHAR(500) )
AS
    BEGIN
        DECLARE @is_Consistency INT  --是否一致
        DECLARE @master_record INT  
        DECLARE @slave_record INT  
        DECLARE @SQL NVARCHAR(MAX)
        DECLARE @LinkServer NVARCHAR(100)  
        DECLARE @DBName NVARCHAR(100)
        DECLARE @SQLCountMaster NVARCHAR(MAX)
        DECLARE @SQLCountSlave NVARCHAR(MAX)


        SET @LinkServer = '192.168.100.6,1433'  --Do  
        SET @DBName = 'Task'  --Do  


--获取主库表的记录数
        SET @SQLCountMaster = '
SELECT TOP 1  sysindx.[rowcnt] FROM ' + '[' + @LinkServer + '].' + '['
            + @DBName + '].' + '[sys].[sysobjects] AS sysobj
INNER JOIN [' + @LinkServer + '].' + '[' + @DBName + '].'
            + '[sys].[sysindexes] AS sysindx ON sysobj.[id] = sysindx.[id]  AND  sysobj.[xtype] = ''u'' AND sysobj.[name] ='
            + '''' + @tbname + ''''



--获取从库表的记录数
        SET @SQLCountSlave = '
SELECT TOP 1  sysindx.[rowcnt] FROM ' + '[' + @DBName + '].'
            + '[sys].[sysobjects] AS sysobj
INNER JOIN [' + @DBName + '].'
            + '[sys].[sysindexes] AS sysindx ON sysobj.[id] = sysindx.[id] AND sysobj.[xtype] = ''u''  AND sysobj.[name] ='
            + '''' + @tbname + ''''

    
       --创建临时表保存临时结果
        IF EXISTS ( SELECT  * FROM    [tempdb]..sysobjects WHERE   id = OBJECT_ID('tempdb..#tmptb1') )
            BEGIN
                DROP TABLE [tempdb].[#tmptb1]
            END
        IF EXISTS ( SELECT  * FROM    [tempdb]..sysobjects  WHERE   id = OBJECT_ID('tempdb..#tmptb2') )
            BEGIN
                DROP TABLE [tempdb].[#tmptb2]
            END
        IF EXISTS ( SELECT  *  FROM    [tempdb]..sysobjects WHERE   id = OBJECT_ID('tempdb..#tmptb3') )
            BEGIN
                DROP TABLE [tempdb].[#tmptb3]
            END
 

        CREATE TABLE [#tmptb1] ( [is_Consistency] INT )-- 一致为1,  不一致为0 
        CREATE TABLE [#tmptb2]([master_record] BIGINT)--主库记录数
        CREATE TABLE [#tmptb3]([slave_record] BIGINT) --从库记录数


        INSERT  INTO [#tmptb2]( [master_record]) EXEC ( @SQLCountMaster)
        INSERT  INTO [#tmptb3]( [slave_record]) EXEC ( @SQLCountSlave)
        SELECT TOP ( 1 ) @master_record = [master_record]  FROM    [#tmptb2]
        SELECT TOP ( 1 ) @slave_record = [slave_record]  FROM    [#tmptb3]


        IF ( @master_record <> @slave_record )
            BEGIN 
                SET @is_Consistency = 0
            END
        ELSE
            BEGIN
                --显示订阅表里面有的记录不在发布表里面的记录有多少 如果不为0 即数据不一致
                SET @SQL = 'SELECT  COUNT(*) FROM  ( SELECT  *  FROM [dbo].[' + @tbname + ']' --发布表
                    + ' EXCEPT ' + 'SELECT * FROM  [' + @LinkServer + '].'
                    + '[' + @DBName + '].' + '[dbo].[' + @tbname + ']' --订阅表
                    + ') AS T;'

                INSERT  INTO [#tmptb1]([is_Consistency]) EXEC (@SQL)

                IF ( SELECT TOP 1 [is_Consistency] FROM   [#tmptb1]) <> 0
                    BEGIN
                        SET @is_Consistency = 0
                    END
                ELSE
                    BEGIN
                        SET @is_Consistency = 1
                    END
            END


        INSERT  INTO [Repl_MonitorStatus]
                ( [tbname] ,
                  [is_Consistency] ,
                  [master_record] ,
                  [slave_record] ,
                  [update_time]
                )
                SELECT  @tbname ,
                        @is_Consistency ,
                        @master_record ,
                        @slave_record ,
                        GETDATE()
    
    END
View Code

注意:脚本中凡是有--Do 的都是你需要结合自己情况去修改的变量

这个脚本的原理很简单,是读取主库表的记录数,然后读取从库表的记录数,然后进行比较

当两边的记录数是一致的,那么再用EXCEPT  减法归零的方法比较两边表数据的内容是否一致

如果也是一致的,那么两边表的数据就是一致的,否则就是不一致的,这里有一个效率问题,就是首先判断记录数是否一致

如果不一致就没有必要再去比较内容一致了,最后把数据插入到表Repl_MonitorStatus

 

5、创建扫描要监控的表存储过程

这里用游标检查哪一个表需要进行校验,然后调用usp_ReplConsistencyCheck存储过程进行校验

USE [Task] --Do  
GO

SET ANSI_NULLS ON
GO
SET QUOTED_IDENTIFIER ON
GO
-- =============================================
-- Author:        <桦仔>
-- Create date: <2015.03.08>
-- Description:    <扫描要监控的表>  
-- =============================================
CREATE  PROCEDURE [dbo].[usp_ReplScanMonitorTb]
AS
    BEGIN

        DECLARE @TBNAME NVARCHAR(100)

        DECLARE CurTBName CURSOR
        FOR
            --获取需要监控的表的表名
            SELECT  tbname
            FROM    [dbo].[Repl_NeedMonitor]
            WHERE   need_monitor = 1

        OPEN CurTBName
        FETCH NEXT FROM CurTBName INTO @TBNAME

        WHILE @@FETCH_STATUS = 0
            BEGIN  
                EXEC [dbo].[usp_ReplConsistencyCheck] @TBNAME
                FETCH NEXT FROM CurTBName INTO @TBNAME
            END
        CLOSE CurTBName
        DEALLOCATE CurTBName

    END
View Code

 

 

6、创建定时校验复制主从数据一致性JOB

每隔13个小时调用一次存储过程,当然这个调用频率可以结合实际情况进行修改

USE [msdb]
GO
-- =============================================
-- Author:<桦仔>
-- Create date: <2015.03.8>
-- Description:    <定时校验复制主从数据一致性JOB>
-- ==============================================



--以什么登录用户身份运行作业
DECLARE @login_name NVARCHAR(100)
SET @login_name=N'sa'  --Do


BEGIN TRANSACTION
DECLARE @ReturnCode INT
SELECT @ReturnCode = 0
/****** Object:  JobCategory [[Uncategorized (Local)]]]    Script Date: 03/16/2015 15:18:09 ******/
IF NOT EXISTS (SELECT name FROM msdb.dbo.syscategories WHERE name=N'[Uncategorized (Local)]' AND category_class=1)
BEGIN
EXEC @ReturnCode = msdb.dbo.sp_add_category @class=N'JOB', @type=N'LOCAL', @name=N'[Uncategorized (Local)]'
IF (@@ERROR <> 0 OR @ReturnCode <> 0) GOTO QuitWithRollback
END

DECLARE @jobId BINARY(16)
EXEC @ReturnCode =  msdb.dbo.sp_add_job @job_name=N'定时校验复制主从数据一致性JOB', 
        @enabled=1, 
        @notify_level_eventlog=0, 
        @notify_level_email=0, 
        @notify_level_netsend=0, 
        @notify_level_page=0, 
        @delete_level=0, 
        @description=N'定时校验复制主从数据一致性JOB', 
        @category_name=N'[Uncategorized (Local)]', 
        @owner_login_name=@login_name, @job_id = @jobId OUTPUT
IF (@@ERROR <> 0 OR @ReturnCode <> 0) GOTO QuitWithRollback
/****** Object:  Step [ResetLoginPassword]    Script Date: 03/16/2015 15:18:10 ******/
EXEC @ReturnCode = msdb.dbo.sp_add_jobstep @job_id=@jobId, @step_name=N'ReplScanMonitorTb', 
        @step_id=1, 
        @cmdexec_success_code=0, 
        @on_success_action=1, 
        @on_success_step_id=0, 
        @on_fail_action=2, 
        @on_fail_step_id=0, 
        @retry_attempts=0, 
        @retry_interval=0, 
        @os_run_priority=0, @subsystem=N'TSQL', 
        @command=N'exec [dbo].[usp_ReplScanMonitorTb]', 
        @database_name=N'Task', 
        @flags=0
IF (@@ERROR <> 0 OR @ReturnCode <> 0) GOTO QuitWithRollback


EXEC @ReturnCode = msdb.dbo.sp_update_job @job_id = @jobId, @start_step_id = 1
IF (@@ERROR <> 0 OR @ReturnCode <> 0) GOTO QuitWithRollback
EXEC @ReturnCode = msdb.dbo.sp_add_jobschedule @job_id=@jobId, @name=N'执行频率', 
        @enabled=1, 
        @freq_type=4, 
        @freq_interval=1, 
        @freq_subday_type=8, 
        @freq_subday_interval=13, 
        @freq_relative_interval=0, 
        @freq_recurrence_factor=0, 
        @active_start_date=20110316, 
        @active_end_date=99991231, 
        @active_start_time=0, 
        @active_end_time=235959, 
        @schedule_uid=N'ddbd2dbc-ab05-4d0a-a4ca-60becc2620ac'
IF (@@ERROR <> 0 OR @ReturnCode <> 0) GOTO QuitWithRollback
EXEC @ReturnCode = msdb.dbo.sp_add_jobserver @job_id = @jobId, @server_name = N'(local)'
IF (@@ERROR <> 0 OR @ReturnCode <> 0) GOTO QuitWithRollback
COMMIT TRANSACTION
GOTO EndSave
QuitWithRollback:
    IF (@@TRANCOUNT > 0) ROLLBACK TRANSACTION
EndSave:

GO
View Code

 

 看一下执行结果

SELECT * FROM [Repl_MonitorStatus]

从作业历史里看一下总执行时间

从执行结果里面也可以看到执行时间

 

脚本缺陷

这个脚本是有缺陷的,如果你是复制表里面的几个字段而不是整表复制的话,那么他就不能比较两边的一致性了

情况一:只复制表里的几个字段,并只需要监控一张表

解决办法:在第一个存储过程里面《执行数据一致性校验》存储过程 修改一下下面的代码只select复制的字段,而不是select *

 --显示订阅表里面有的记录不在发布表里面的记录有多少 如果不为0 即数据不一致
                SET @SQL = 'SELECT  COUNT(*) FROM  ( SELECT  字段1,字段2。。。  FROM [dbo].[' + @tbname + ']' --发布表
                    + ' EXCEPT ' + 'SELECT  字段1,字段2。。。 FROM  [' + @LinkServer + '].'
                    + '[' + @DBName + '].' + '[dbo].[' + @tbname + ']' --订阅表
                    + ') AS T;'

 

情况二:只复制表里的几个字段,并且需要监控几张表,这些表中,有些表是整表复制,有些表只复制几个字段

由于脚本里面没有加入判断复制项目,那么对于这种情况,这个脚本无能为力

 


总结

在线上使用了事务复制这麽久不知道有多少人会定期的进行一下数据校验,当主库发生宕机的时候,你的从库的数据是否是一致的

如果你的主库因为硬件问题宕机,并且不能在最短的时间之内修复好,那么你这时再做主从数据的一致性校验已经没有可能了

这时候你有两个选择

1、冒险使用从库的数据,将从库变为主库

2、放弃使用从库,全部数据不要(当然了,全部数据不要是没有可能的!)

 

 

至于在SQL Server中比较两张表的数据一致性的方法和性能,可以参考下面这篇文章

SQLSERVER中如何快速比较两张表的不一样 

 

 

如有任何问题,欢迎大家向我反馈o(∩_∩)o 

相关实践学习
使用SQL语句管理索引
本次实验主要介绍如何在RDS-SQLServer数据库中,使用SQL语句管理索引。
SQL Server on Linux入门教程
SQL Server数据库一直只提供Windows下的版本。2016年微软宣布推出可运行在Linux系统下的SQL Server数据库,该版本目前还是早期预览版本。本课程主要介绍SQLServer On Linux的基本知识。 相关的阿里云产品:云数据库RDS&nbsp;SQL Server版 RDS SQL Server不仅拥有高可用架构和任意时间点的数据恢复功能,强力支撑各种企业应用,同时也包含了微软的License费用,减少额外支出。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/sqlserver
目录
相关文章
|
5天前
|
SQL 数据采集 监控
局域网监控电脑屏幕软件:PL/SQL 实现的数据库关联监控
在当今网络环境中,基于PL/SQL的局域网监控系统对于企业和机构的信息安全至关重要。该系统包括屏幕数据采集、数据处理与分析、数据库关联与存储三个核心模块,能够提供全面而准确的监控信息,帮助管理者有效监督局域网内的电脑使用情况。
12 2
|
3月前
|
SQL 监控 Java
SQL质量监控
为帮助用户管理和优化SLS中的SQL查询,提供了用户级SQL质量监控功能,集成于CloudLens for SLS。开启服务后约10分钟,用户可在「报表中心 / SQL质量监控」中查看数据。 该功能包括: SQL健康分和使用报告:反馈总体质量。 服务指标:如请求PV数、平均延时等,用于业务分析。 运行指标:如并发请求、处理数据量等。 SQL Pattern分析:提炼SQL语义特征,识别业务特征。 质量优化建议:基于请求成功率和错误码分布给出改进建议。 监控功能以分钟为单位聚合分析数据,不包括JDBC接入和ScheduledSQL流量,并可能随产品发展而调整。这些功能有助于用户全面掌握SQL
SQL质量监控
|
2月前
|
关系型数据库 MySQL 网络安全
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
WXM
|
4月前
|
SQL 运维 分布式计算
如何做好SQL质量监控
为满足用户对SQL分析行为的监控和质量管理需求,我们推出了用户级SQL质量监控功能。此功能集成于CloudLens for SLS中,可轻松开启以监控和管理所有SLS相关资源(包括采集接入、读写操作、作业、配额、SQL、计费等)。
WXM
32 2
如何做好SQL质量监控
|
3月前
|
SQL 存储 NoSQL
从SQL到NoSQL:理解不同数据库类型的选择与应用——深入比较数据模型、扩展性、查询语言、一致性和适用场景,为数据存储提供全面决策指南
【8月更文挑战第31天】在信息技术飞速发展的今天,数据库的选择至关重要。传统的SQL数据库因其稳定的事务性和强大的查询能力被广泛应用,而NoSQL数据库则凭借其灵活性和水平扩展性受到关注。本文对比了两种数据库类型的特点,帮助开发者根据应用场景做出合理选择。SQL数据库遵循关系模型,适合处理结构化数据和复杂查询;NoSQL数据库支持多种数据模型,适用于非结构化或半结构化数据。SQL数据库在一致性方面表现优异,但扩展性较差;NoSQL数据库则设计之初便考虑了水平扩展性。SQL使用成熟的SQL语言,NoSQL的查询语言更为灵活。
70 0
|
4月前
|
SQL 存储 监控
SQL Server的并行实施如何优化?
【7月更文挑战第23天】SQL Server的并行实施如何优化?
98 13
|
4月前
|
SQL
解锁 SQL Server 2022的时间序列数据功能
【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能,可使用`generate_series`函数生成整数序列,例如:`SELECT value FROM generate_series(1, 10)。此外,`date_bucket`函数能按指定间隔(如周)对日期时间值分组,这些工具结合窗口函数和其他时间日期函数,能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。
|
4月前
|
SQL 存储 网络安全
关系数据库SQLserver 安装 SQL Server
【7月更文挑战第26天】
58 6
|
4月前
|
存储 监控 数据库
局域网监控软件中的Transact-SQL事务管理
**T-SQL事务管理**确保数据的原子性、一致性、隔离性和持久性。使用`BEGIN TRANSACTION`, `COMMIT`和`ROLLBACK`来控制事务。例如,在更新账户余额的事务中,如果所有操作成功则提交,否则回滚。错误处理通过`TRY-CATCH`结构实现,嵌套事务允许在事务内开启新的事务。通过触发器和存储过程,如`DataChangeTrigger`和`SubmitDataToWebsite`,可以自动化数据提交到网站,当表数据变动时触发。
41 5
|
4月前
|
存储 SQL C++
对比 SQL Server中的VARCHAR(max) 与VARCHAR(n) 数据类型
【7月更文挑战7天】SQL Server 中的 VARCHAR(max) vs VARCHAR(n): - VARCHAR(n) 存储最多 n 个字符(1-8000),适合短文本。 - VARCHAR(max) 可存储约 21 亿个字符,适合大量文本。 - VARCHAR(n) 在处理小数据时性能更好,空间固定。 - VARCHAR(max) 对于大文本更合适,但可能影响性能。 - 选择取决于数据长度预期和业务需求。
306 1