[AlwaysOn Availability Groups]AG排查和监控指南

本文涉及的产品
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
云数据库 RDS SQL Server,基础系列 2核4GB
简介: AG排查和监控指南 1. 排查场景 如下表包含了常用排查的场景。根据被分为几个场景类型,比如Configuration,client connectivity,failover和performance。

AG排查和监控指南

1. 排查场景

如下表包含了常用排查的场景。根据被分为几个场景类型,比如Configurationclient connectivityfailoverperformance

 

Scenario

笔记

Scenario Type

Description

Troubleshoot AlwaysOn Availability Groups Configuration (SQL Server)

排查:AG配置 

Configuration

提供了一些典型的配置AG实例发生问题的信息。比如AG被禁用,账号配置不正确,镜像endpoint不存在(SQL Server Error 1418)。网络访问不存在,join数据库失败(SQL Server Error 35250)

Troubleshoot "Validating WSFC quorum vote configuration" warning

 

Configuration

当使用对话框创建AG时,收到一个警告: “The current WSFC cluster quorum vote configuration is not recommended for this availability group.”

Troubleshoot issues when creating availability group listeners

 

Configuration

在创建AG Listener的时候发生错误。

Troubleshoot a Failed Add-File Operation (AlwaysOn Availability Groups)

 

Configuration

添加文件导致secondary数据库挂起,状态变为NOT SYNCHORNIZING

Fix: Error 41009 when you try to create multiple availability groups

 

Configuration

创建多个AG时发生41009 错误

Cannot connect to availability group listener in a multi-subnet environment

 

Client Connectivity

创建了AG Listener之后,无法ping通和连接

Troubleshoot failed automatic failovers

 

Failover

自动故障转移不能成功完成

Troubleshoot: Availability Group Exceeded RTO

排查:AG超过RTO 

Performance

自动故障转移或者计划内的手动转移之后,切换时间超过了RTO时间

Troubleshoot: Availability Group Exceeded RPO

排查:AG超过RPO

Performance

强制故障转移后,都是的数据超过了RPO。或者异步提交的replica能够承受的数据丢失超过了RPO

Troubleshoot: Changes on the Primary Replica are not Reflected on the Secondary Replica

排查:Primary上的修改无法在Secondary体现

Performance

客户端程序可以成功的完成primary的修改,但是查询replia却没有反应。

 

2. 排查工具

以下工具可以用来排查,配置时或者运行时发生的问题

 

Tool

笔记

Description

Use the AlwaysOn Dashboard (SQL Server Management Studio)

 

UI接口下,获取某个时间点的AG健康情况。

AlwaysOn Policies

 

Alwayson Dashboard使用

SQL Server Error Log (AlwaysOn Availability Groups)

SQL Server错误日志(AG)

记录AG,副本,数据库,其他AG主键的状态变化,和AG的错误

CLUSTER.LOG (AlwaysOn Availability Groups)

CLUSTER.LOG(AG) 

记录集群时间,包括AG资源的状态变化,SQL Server resource DDL的事件和错误。

AlwaysOn Health Diagnostics Log

AlwaysOn健康诊断日志

记录SQL Server健康诊断被报告到WSFC集群,由sp_server_diagnostics (Transact-SQL)产生

Dynamic Management Views and System Catalog Views (AlwaysOn Availability Groups)

DMV和系统目录视图 

报告AG的信息,比如配置,健康状况,性能问题

AlwaysOn Extended Events

AG扩展事件

提供了详细AG信息用来诊断,分析起因

AlwaysOn Wait Types

AlwaysOn等待类型 

提供了AG特定的等待信息,用来调整性能

AlwaysOn Performance Counters

 

监控AG的活动,反馈到系统监视器,用来调优,具体可以看 SQL Server, Availability Replica  SQL Server, Database Replica.

AlwaysOn Ring Buffers

AlwaysOn Ring Buffers

记录SQL Server系统内部争端的警告,用来debugAG有关的问题。

 

3. 监控AG

理想的排查时间是在故障转移之前。这个可以通过监控性能值,在超过SLA之前发送告警。比如同步secnodary副本有性能问题,因为预计failover时间增加。AG是高可用和灾难恢复解决访问,最重要的性能指标是切换时间,会影响RTO,灾难导致的数据丢失会影响RPO

以下表文章用来监控AG的健康状况:

Topic

笔记

Description

Monitor Performance for AlwaysOn Availability Groups

监控AG性能 

描述AG数据同步,阀值控制,和一些有用的值用来监控AG,还有如何收集RTORPO的值。

Monitoring of Availability Groups (SQL Server)

 

提供一些AG监控工具

The AlwaysOn Health Model Part 1 -- Health Model Architecture

健康模型 Part 1——概述 

提供一个Alwayson健康模型的概述

The AlwaysOn Health Model Part 2 -- Extending the Health Model

健康模型 Part 2 ——扩展

如何用户定制Alwayson监控模型和用户定义Alwayson Dashboard,来显示额外的信息。

Monitoring AlwaysOn Health with PowerShell - Part 1: Basic Cmdlet Overview

使用Powershell监控AlwayOn健康 

提供一些基本的Alwayson Powershell命令。用来监控AG的健康状况。

Monitoring AlwaysOn Health with PowerShell - Part 2: Advanced Cmdlet Usage

使用Powershell监控AlwayOn健康 

提供一些高级的Alwayson Powershell命令。用来监控AG的健康状况。

Monitoring AlwaysOn Health with PowerShell - Part 3 : A Simple Monitoring Application

使用Powershell监控AlwayOn健康 

显示如何使用城区监控AG

Monitoring AlwaysOn Health with PowerShell - Part 4 : Integration with SQL Server Agent

使用Powershell监控AlwayOn健康 

如何使用SQL Server Agent集成监控AG,并且在出问题的时候通知。

 

 

相关实践学习
使用SQL语句管理索引
本次实验主要介绍如何在RDS-SQLServer数据库中,使用SQL语句管理索引。
SQL Server on Linux入门教程
SQL Server数据库一直只提供Windows下的版本。2016年微软宣布推出可运行在Linux系统下的SQL Server数据库,该版本目前还是早期预览版本。本课程主要介绍SQLServer On Linux的基本知识。 相关的阿里云产品:云数据库RDS SQL Server版 RDS SQL Server不仅拥有高可用架构和任意时间点的数据恢复功能,强力支撑各种企业应用,同时也包含了微软的License费用,减少额外支出。 了解产品详情: https://www.aliyun.com/product/rds/sqlserver
目录
相关文章
|
3月前
|
Windows
【Azure 应用服务】收集App Service 关于Availability Zone, Health check 以及 Traffic Manager的文档,并了解高可用(HA)和灾备(DR)
【Azure 应用服务】收集App Service 关于Availability Zone, Health check 以及 Traffic Manager的文档,并了解高可用(HA)和灾备(DR)
|
前端开发
网络设置错误造成cluster不能启动(oifcfg setif cluster_interconnect )
设置rac节点之间的互联网络错误,造成集群无法启动,应该设置成
|
SQL 固态存储 关系型数据库
openGauss Cluster Manager RTO Test
openGauss Cluster Manager RTO Test
188 0
openGauss Cluster Manager RTO Test
|
SQL 弹性计算 网络协议
Implementing SQL Server AlwaysOn Availability Groups on ECS Instances
The SQL Server AlwaysOn group features a high-availability and disaster recovery solution. However, users must take note of the differences in copies as well as the replication relationships.
3144 0