[AlwaysOn Availability Groups]排查:AG超过RPO

简介:

排查:AG超过RPO

在异步提交的secondary上执行了切换,你可能会发现数据的丢失大于RPO,或者在计算可以忍受的数据都是超过了RPO

1.通常原因

1.网络延迟太高,网络吞吐量太低,导致Primary的日志堆积
2.磁盘IO瓶颈导致LOG固化速度降低

2. 网络延迟太高,网络吞吐量太低,导致Primary的日志堆积

很多超过RPO的原因是日志发送到secondary副本不够快。

原因:
Primary副本在日志发送启动了流量控制,因为日志发送超过了最大运行的非通知信息的量。直到这些信息被通知,不然不能在发新的信息到secondary副本。因为数据丢失会影响secondary副本的固化。这些没有发送的日志的数据就会被丢失。

诊断和解决:
日志高度重复,说明primarysecondary上的延迟很高。可以查看DMVlog_send_rate和性能指标log bytes flushed/sec对比。如果flushed速度大于发送的速度,那么数据丢失会越来越大。
通过检查性能指标,SQL Server:Availability Replica> Flow Control Time(ms/sec)SQL Server:Availability Replica > Flow Comtrol/sec。这2个性能指标可以说明上一秒有多少时间用来等待flow control清理。Flow control等待越久,发送速度越小。
以下是一组指标可以用来诊断网络延迟和吞吐量,也可以用一些Windows工具,比如pingResource MonitorNetwork Monitor 

·  DMV sys.dm_hadr_database_replica_states, log_send_queue_size

·  DMV sys.dm_hadr_database_replica_states, log_send_rate

·  Performance counter SQL Server:Database > Log Bytes Flushed/sec

·  Performance counter SQL Server:Database Mirroring > Send/Receive Ack Time

·  Performance counter SQL Server:Availability Replica > Bytes Sent to Replica/sec

·  Performance counter SQL Server:Availability Replica > Bytes Sent to Transport/sec

·  Performance counter SQL Server:Availability Replica > Flow Control Time (ms/sec)

·  Performance counter SQL Server:Availability Replica > Flow Control/sec

·  Performance counter SQL Server:Availability Replica > Resent Messages/sec

3.磁盘I/O瓶颈降低secondary副本的日志固化

根据数据库文件部署,日志固化会因为IO争用被降低。

原因:
只要日志被固化到磁盘,就可以防止数据丢失。因此隔离日志文件和数据文件的IO变的很重要。如果日志文件和数据文件使用同一个物理磁盘,IO密集型查询会消耗日志固化需要的IO能力。日志固化变慢会间接导致primary通知变慢,导致flow control等待时间变长。

诊断和解决:
如果你诊断了网络,没有很高的延迟或者很低的吞吐量,然后你应该看看secondary是否有IO争用问题。
以下脚本可以让你知道每个数据文件和日志文件的读写次数。
SELECT DB_NAME(database_id) AS

   [Database Name] ,

   file_id ,

   io_stall_read_ms ,

   num_of_reads ,

   CAST(io_stall_read_ms /( 1.0 + num_of_reads ) AS NUMERIC(10, 1)) AS [avg_read_stall_ms] ,

   io_stall_write_ms ,

   num_of_writes ,

   CAST(io_stall_write_ms /( 1.0 + num_of_writes ) AS NUMERIC(10, 1)) AS [avg_write_stall_ms] ,

   io_stall_read_ms + io_stall_write_ms AS [io_stalls] ,

   num_of_reads + num_of_writes AS [total_io] ,

   CAST(( io_stall_read_ms + io_stall_write_ms ) /( 1.0 + num_of_reads

+ num_of_writes) AS NUMERIC(10,1)) AS [avg_io_stall_ms]

FROM sys.dm_io_virtual_file_stats(NULL, NULL)

WHERE DB_NAME(database_id) IN(SELECT DISTINCT database_name FROM sys.dm_hadr_database_replica_cluster_states)

ORDER BY avg_io_stall_ms DESC;


下面脚本提供了某个时间点IO请求被挂起的快照:
SELECT DB_NAME(mf.database_id) AS [Database] ,

   mf.physical_name ,

   r.io_pending ,

   r.io_pending_ms_ticks ,

   r.io_type ,

   fs.num_of_reads ,

   fs.num_of_writes

FROM sys.dm_io_pending_io_requests AS r

INNER JOIN sys.dm_io_virtual_file_stats(NULL, NULL) AS fs ON r.io_handle = fs.file_handle

INNER JOIN sys.master_files AS mf ON fs.database_id = mf.database_id

AND fs.file_id = mf.file_id

ORDER BY r.io_pending , r.io_pending_ms_ticks DESC;

你可以通过读写IO,来识别是否有IO争用问题。以下是一些关于IO的性能指标:
·  Physical Disk: all counters

·  Physical Disk: Avg. Disk sec/Transfer

·  SQL Server: Databases > Log Flush Wait Time

·  SQL Server: Databases > Log Flush Waits/sec

·  SQL Server: Databases > Log Pool Disk Reads/sec

如果你发现有IO瓶颈,并且log文件和数据文件在同一个磁盘下,第一件要做的事情就是把日志文件和数据文件分开。

 



    本文转自 Fanr_Zh 博客园博客,原文链接:http://www.cnblogs.com/Amaranthus/p/4981484.html,如需转载请自行联系原作者



相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
负载均衡 安全 应用服务中间件
什么是正向代理和反向代理
正向代理是客户端与服务端之间的中介,用于访问受限资源,如V/P/N和动态IP代理,同时可隐藏客户端IP。反向代理则接收客户端请求并转发给后端服务器集群,隐藏真实服务器信息,常用于堡垒机和负载均衡,如nginx。正向代理焦点在客户端,反向代理关注服务端。
|
2月前
|
Web App开发 人工智能 JSON
别再手写提示词!需求澄清 + 50多专业提示词框架自动匹配,效率提升10倍!
Prompt Optimizer 是一款智能提示词优化工具,内置50+专业框架,支持需求澄清、歧义确认与自动匹配,兼容多模型,显著提升AI输出质量并降低API成本。(239字)
别再手写提示词!需求澄清 + 50多专业提示词框架自动匹配,效率提升10倍!
|
5月前
|
存储 运维 Kubernetes
《聊聊分布式》从Paxos到Raft:分布式共识算法的演进与突破
共识算法是分布式系统的“大脑”,确保多节点协同工作。Paxos理论严谨但工程复杂,而Raft以可理解性为核心,通过清晰的角色划分和流程设计,显著降低实现与运维难度,成为etcd、Consul等主流系统的基石,体现了从理论到工程实践的成功演进。
|
1月前
|
数据采集 人工智能 JSON
别让烂数据毁了你的AI!一份人人能懂的数据集入门与避坑指南
本文深入浅出解析AI数据集的核心价值与实践方法:阐明“垃圾进,垃圾出”原理,拆解数据集、样本、特征、标签等概念,详解训练/验证/测试集分工;以文本情感二分类为例,手把手指导数据收集、清洗、标注、划分及低代码微调;强调数据质量决定模型上限,并展望合规、合成数据与自动化标注趋势。(239字)
147 1
别让烂数据毁了你的AI!一份人人能懂的数据集入门与避坑指南
|
2月前
|
传感器 缓存 机器人
全球首个自回归视频-动作世界模型,LingBot-VA 正式开源!
蚂蚁灵波团队推出具身世界模型LingBot-VA,首创自回归视频-动作一体化建模框架,实现“边推演、边行动”。它融合视频生成与机器人控制,具备长时序记忆与少样本学习能力,在真实机器人任务中成功率较Pi0.5提升20%,仿真基准刷新SOTA。已全面开源。
237 1
 全球首个自回归视频-动作世界模型,LingBot-VA 正式开源!
|
2月前
|
弹性计算 编解码 应用服务中间件
阿里云服务器购买价格参考:新用户专享与新老同享云服务器活动价格
2026年阿里云新用户可享受轻量应用服务器和经济型e实例特惠,老用户同享99元、199元云服务器及第九代高性能实例折扣。阿里云通过u2a、c9i、g9i、r9i等多款实例规格,满足从个人开发者到大型企业的多样化需求,结合优惠券使用,实现成本效益最大化。用户可根据业务需求和预算,选择最适合的云服务器配置。
307 12
|
3月前
|
人工智能 运维 安全
2025年主流接口测试工具对比分析与最佳实践指南
文章围绕2025年接口测试工具展开,介绍其在自动化、云化与AI赋能方向的演进。对比SaaS化平台、本地化部署方案及AI驱动型工具的特点、优势与局限,分析行业痛点及解决方案。还给出构建一体化链路的最佳实践,以及工具选择建议,助力企业提升测试效率与质量。
|
3月前
|
人工智能 语音技术 开发者
AI工具推荐 ,语音转文字,语音合成工具,永久免费版的AI工具
AI工具推荐 ,语音转文字,语音合成工具,永久免费版的AI工具
|
9月前
|
机器学习/深度学习 人工智能 运维
网管不再抓头发:深度学习教你提前发现网络事故
网管不再抓头发:深度学习教你提前发现网络事故
224 2
|
7月前
|
C++ Windows
0xc0000142修复步骤图解
遇到0xc0000142错误时,可以按照以下步骤进行修复,并附上图解说明: 修改系统区域语言‌