利用Ring Buffer在SQL Server 2008中进行连接故障排除

本文涉及的产品
云数据库 RDS SQL Server,基础系列 2核4GB
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
简介: 原文: 利用Ring Buffer在SQL Server 2008中进行连接故障排除 出自:http://blogs.msdn.com/b/apgcdsd/archive/2011/11/21/ring-buffer-sql-server-2008.aspx SQL Server 2008中包含一个新功能,旨在帮助解决特别棘手的连接问题。
原文: 利用Ring Buffer在SQL Server 2008中进行连接故障排除

出自:http://blogs.msdn.com/b/apgcdsd/archive/2011/11/21/ring-buffer-sql-server-2008.aspx

SQL Server 2008中包含一个新功能,旨在帮助解决特别棘手的连接问题。这个新功能是Connectivity Ring Buffer,它可以捕捉每一个由服务器发起的连接关闭记录(server-initiated connection closure),包括每一个session或登录失败事件。为了进行有效的故障排除,Ring Buffer会尝试提供客户端的故障和服务器的关闭动作之间的关系信息。只要服务器在线最高1KRing Buffer就会被保存,1000条记录后,Buffer开始循环覆盖,即从最老的记录开始覆盖。Connectivity Ring Buffer的记录是能够使用DMV查询的:

 

SELECT CAST(record AS XML) FROM sys.dm_os_ring_buffers
WHERE
 ring_buffer_type = 'RING_BUFFER_CONNECTIVITY'

 

上述指令会选择所有记录为XML类型;Management Studio,你可以单击记录,从而获得更具可读性的版本。如果你想使用SQL查询XML记录从而找到相应的问题,你可以使用SQL serverXML 支持,将之变为一个临时的表,从而查询记录。

 

一个基本的Buffer entry:Killed SPID

一个导致服务器发起的连接关闭的简单方法是打开两个SQL服务器的连接,找到一个连接的SPID,然后从另一个连接中将该SPID杀死。

C:\>osql -E
1> SELECT @@spid

2> go
------
51
(1 row affected)

C:\>osql -E
1> kill 51
2> go
1>

如果你做了上述工作,然后查询Ring Buffer,你会得到和如下类似的结果:

<Record id="2" type="RING_BUFFER_CONNECTIVITY" time="110448275">

<ConnectivityTraceRecord>

<RecordType>ConnectionClose</RecordType>

<RecordSource>Tds</RecordSource>

<Spid>55</Spid>

<SniConnectionId>B7882F3C-3BA9-45A7-8D23-3C5C05F9BDF9</SniConnectionId>

<SniProvider>4</SniProvider>

<RemoteHost>&lt;local machine&gt;</RemoteHost>

<RemotePort>0</RemotePort>

<LocalHost />

<LocalPort>0</LocalPort>

<RecordTime>5/6/2008 22:47:35.880</RecordTime>

<TdsBuffersInformation>

<TdsInputBufferError>0</TdsInputBufferError>

<TdsOutputBufferError>0</TdsOutputBufferError>

<TdsInputBufferBytes>60</TdsInputBufferBytes>

</TdsBuffersInformation>

<TdsDisconnectFlags>

<PhysicalConnectionIsKilled>0</PhysicalConnectionIsKilled>

<DisconnectDueToReadError>0</DisconnectDueToReadError>

<NetworkErrorFoundInInputStream>0</NetworkErrorFoundInInputStream>

<ErrorFoundBeforeLogin>0</ErrorFoundBeforeLogin>

<SessionIsKilled>1</SessionIsKilled>

<NormalDisconnect>0</NormalDisconnect>

<NormalLogout>0</NormalLogout>

</TdsDisconnectFlags>

</ConnectivityTraceRecord>

<Stack>

<frame id="0">0X01CA0B00</frame>

<frame id="1">0X01CA0DB1</frame>

<frame id="2">0X01DF6162</frame>

<frame id="3">0X02E53C98</frame>

<frame id="4">0X02E54845</frame>

<frame id="5">0X02E57BE9</frame>

<frame id="6">0X02E38F57</frame>

<frame id="7">0X02E3B2C0</frame>

<frame id="8">0X02E3C832</frame>

<frame id="9">0X02E3D55E</frame>

<frame id="10">0X781329BB</frame>

<frame id="11">0X78132A47</frame>

</Stack>

</Record>

不同的记录类型包括不同的信息。Connectivity Ring Buffer 记录的三种记录类型分别是:ConnectionCloseError,和LoginTimers。上面的结果是一个ConnectionClose,因为这不是一个登陆时超时,或者其它的登陆失败的场景:


<RecordType>ConnectionClose</RecordType>

我们可以看出,SPID  55的连接关闭了:

<![endif]>

<Spid>55</Spid>

我们可以看到连接是本地的(<local machine>表明其是一个本地的,shared memory类型的连接)。

<![endif]>

<RemoteHost>&lt;local machine&gt;</RemoteHost>

 

当使用TCP协议进行连接时,可以获得更多的相关信息-例如,本地IP地址,端口,以及远程IP地址和端口,从而允许你唯一的确定客户机及其应用。另外,Ring Buffer包括了一个时间戳以及与之相对应的SPID(如果有的话),这样才能形成一个完整的对应关系。(因为随着时间的推移SPID会被不同的连接所重用)。

我们同样可以看到客户发的TDS包中有多少bytes,并且可以知道是否在TDS中有任何的错误:


<TdsInputBufferError>0</TdsInputBufferError>
<
TdsOutputBufferError>0</TdsOutputBufferError>
<
TdsInputBufferBytes>60</TdsInputBufferBytes>

 

最相关的,最易于分析的信息记录在TdsDisconnectFlags中,有一系列的值,记录了关闭连接的状态。这里,我们看到没有发现错误,但是这里记录了这也不是一个正常的断开或者一个正常的登出。从如下的flag中,这个session是被杀死的:


<SessionIsKilled>1</SessionIsKilled>

一个更有意思的例子:DC 连接性问题

跟踪被杀死的SPID看起来很cool。但是Connectivity Ring Buffer更重要的最用是帮助我们可以在不使用network monitor的情况下来解决棘手的问题。以下是一个Connectivity Ring BufferLogin Time记录的例子,如果没有代价高昂的问题重现过程并且分析网络抓获的包,这个问题很难查明:

<Record id="3" type="RING_BUFFER_CONNECTIVITY" time="112254962">

<ConnectivityTraceRecord>

<RecordType>LoginTimers</RecordType>

<Spid>0</Spid>

<SniConnectionId>B401B045-3C82-4AAC-A459-DB0520925431</SniConnectionId>

<SniConsumerError>17830</SniConsumerError>

<SniProvider>4</SniProvider>

<State>102</State>

<RemoteHost>&lt;local machine&gt;</RemoteHost>

<RemotePort>0</RemotePort>

<LocalHost />

<LocalPort>0</LocalPort>

<RecordTime>5/6/2008 23:17:42.556</RecordTime>

<TdsBuffersInformation>

<TdsInputBufferError>0</TdsInputBufferError>

<TdsOutputBufferError>232</TdsOutputBufferError>

<TdsInputBufferBytes>198</TdsInputBufferBytes>

</TdsBuffersInformation>

<LoginTimers>

<TotalLoginTimeInMilliseconds>21837</TotalLoginTimeInMilliseconds>

<LoginTaskEnqueuedInMilliseconds>0</LoginTaskEnqueuedInMilliseconds>

<NetworkWritesInMilliseconds>2</NetworkWritesInMilliseconds>

<NetworkReadsInMilliseconds>77</NetworkReadsInMilliseconds>

<SslProcessingInMilliseconds>3</SslProcessingInMilliseconds>

<SspiProcessingInMilliseconds>21756</SspiProcessingInMilliseconds>

<LoginTriggerAndResourceGovernorProcessingInMilliseconds>0</LoginTriggerAndResourceGovernorProcessingInMilliseconds>

</LoginTimers>

</ConnectivityTraceRecord>

<Stack>

<frame id="0">0X01CA0B00</frame>

<frame id="15">0X02E3C832</frame>

</Stack>

</Record>

在这个情况下,在客户端,我们可以看到:
[SQL Server Native Client 10.0]Shared Memory Provider: Timeout error [258].
[SQL Server Native Client 10.0]Login timeout expired

[SQL Server Native Client 10.0]Unable to complete login process due to delay in login response

获得操作系统的错误消息,不能说明任何问题:


C:\>net helpmsg
 258
The wait operation timed out.

在服务器的errorlogs里面,什么都没有。然而Ring Buffer中的记录非常有意思。LoginTimers中记录了整体处理时间(overall processing time):


<TotalLoginTimeInMilliseconds>21837</TotalLoginTimeInMilliseconds>

在整个登陆过程中,根据不同阶段所做的工作的不同,TotalLoginTimeInMilliseconds被分解为一个个子项(由于取整的操作,这些数字最终加起来不会等于总体的时间。在上面所举的例子中他们相差1)。在这种情况下,SspiProcessingInMilliseconds 看起来很有趣,它用了近22秒:

<![endif]>

<SspiProcessingInMilliseconds>21756</SspiProcessingInMilliseconds>

SSPISecurity Support Provider Interface),是一个SQL Server使用Windows Authentication的接口。当Windows login是一个domain accountSQL Server使用SSPIDomain Controller交互,从而验证用户身份。记录中可以看到,SSPI过程占用了大量的时间,这表明和Domain Controller交互时有延时,很有可能是SQL服务器和DC之间的物理连接有问题,或者DC上的一些软件问题。可以看到,我们没有进行网络抓包,也没有重现问题,我们就已经把问题缩小到SQL ServerDomain Controller之间的交互上面来了。(Connectivity Ring Buffer默认是打开的)

Trace Flags

Connectivity Ring Buffer 默认是打开的,它默认跟踪所有的由服务器发起的连接关闭。如果你在客户端看到一个错误,但是在Ring Buffer中没有记录,这就表明服务器看到的是一种“重置”类型的连接关闭,这种连接关闭类似于客户端正常关闭连接的行为,或者是由于服务器外部因素所造成的连接关闭;(例如,一个网络硬件的故障)。如果是这种情况,你就需要关注潜在的网络互联问题。如果你在Ring Buffer中看到了一个条目它可以指出为什么服务器要关闭这个链接,那么这个条目就很可能可以极大的帮助我们进行故障排查。例如,如果你看到一个连接关闭是由于TDS包中的信息不合法,那么你就可以去检查那些可能会损坏网络包的设备,包括网卡,路由和集线器等。下面你会看到,通过使用一个trace flag,你可以让Connectivity Ring Buffer记录所有连接关闭事件。这样你就能观察到客户端发起的连接关闭的情形和潜在的错误。

有两个trace flag,可以用于改变Connectivity Ring Buffer 的行为。

完全关闭Connectivity Ring Buffer,可以开启trace flag 7826

DBCC TRACEON (7826, -1)

默认情况下客户端发起的连接关闭是不被记录的(因为这是正常的情况,而不是一个错误);当一个客户结束的它的session,它就断开。一般来说,我们建议不要去跟踪客户端发起的连接关闭,因为真正有用的Buffer记录会被覆盖(当你有很多正常表现的连接时,这种情况发生可能性会很大),或者会被隐藏在一个堆正常情况的记录中。这会使你错过真正的错误问题。如果你真的想要观察客户端的连接关闭,你可以使用trace flag 7827来开启这个功能:

DBCC TRACEON (7827, -1)

<Frame>tags是什么?

通过sys.dm_os_ring_buffers DMV 可以访问一系列内部信息,它包含了但不仅限于Connectivity Ring Buffer。作为DMV基础的一部分,大多数的Ring Buffers 提供了事件发生时的栈踪迹(stack trace),每一个<frame>提供了一个十六进制的函数地址。这些都可以分解为函数名,并dump Sqlservr.exe进程,在WinDbg打开dump,并采用基于函数的地址的LM命令。

相关实践学习
使用SQL语句管理索引
本次实验主要介绍如何在RDS-SQLServer数据库中,使用SQL语句管理索引。
SQL Server on Linux入门教程
SQL Server数据库一直只提供Windows下的版本。2016年微软宣布推出可运行在Linux系统下的SQL Server数据库,该版本目前还是早期预览版本。本课程主要介绍SQLServer On Linux的基本知识。 相关的阿里云产品:云数据库RDS&nbsp;SQL Server版 RDS SQL Server不仅拥有高可用架构和任意时间点的数据恢复功能,强力支撑各种企业应用,同时也包含了微软的License费用,减少额外支出。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/sqlserver
目录
相关文章
|
4月前
|
SQL 开发框架 .NET
ASP.NET连接SQL数据库:详细步骤与最佳实践指南ali01n.xinmi1009fan.com
随着Web开发技术的不断进步,ASP.NET已成为一种非常流行的Web应用程序开发框架。在ASP.NET项目中,我们经常需要与数据库进行交互,特别是SQL数据库。本文将详细介绍如何在ASP.NET项目中连接SQL数据库,并提供最佳实践指南以确保开发过程的稳定性和效率。一、准备工作在开始之前,请确保您
373 3
|
4月前
|
SQL 数据库 索引
SQL语句实现投影连接:方法与技巧详解
在SQL数据库查询中,投影和连接是两个核心概念
|
4月前
|
SQL Java 数据库连接
如何使用`DriverManager.getConnection()`连接数据库,并利用`PreparedStatement`执行参数化查询,有效防止SQL注入。
【10月更文挑战第6天】在代码与逻辑交织的世界中,我从一名数据库新手出发,通过不断探索与实践,最终成为熟练掌握JDBC的开发者。这段旅程充满挑战与惊喜,从建立数据库连接到执行SQL语句,再到理解事务管理和批处理等高级功能,每一步都让我对JDBC有了更深的认识。示例代码展示了如何使用`DriverManager.getConnection()`连接数据库,并利用`PreparedStatement`执行参数化查询,有效防止SQL注入。
179 5
|
4月前
|
SQL 数据库 决策智能
SQL语句实现投影连接详解
在SQL中,投影(Projection)和连接(Join)是数据查询和处理中非常重要的两个操作
|
4月前
|
SQL 存储 数据可视化
SQL 数据库大揭秘:连接数字世界的魔法桥梁
在数字化时代,数据如繁星般璀璨,而 SQL 数据库则像强大的引力场,有序汇聚、整理和分析这些数据。SQL 数据库是一个巨大的数字宝库,装满各行各业的“宝藏”。本文将带你探索 SQL 数据库在电商、金融、医疗和教育等领域的应用。例如,在电商中,它能精准推荐商品;在金融中,它是安全卫士,防范欺诈;在医疗中,它是健康管家,管理病历;在教育中,则是智慧导师,个性化教学。此外,还将介绍如何利用板栗看板等工具实现数据可视化,提升决策效率。
|
4月前
|
SQL 开发框架 .NET
ASP连接SQL数据库:从基础到实践
随着互联网技术的快速发展,数据库与应用程序之间的连接成为了软件开发中的一项关键技术。ASP(ActiveServerPages)是一种在服务器端执行的脚本环境,它能够生成动态的网页内容。而SQL数据库则是一种关系型数据库管理系统,广泛应用于各类网站和应用程序的数据存储和管理。本文将详细介绍如何使用A
122 3
|
4月前
|
SQL 数据库 索引
SQL语句实现投影连接:技巧与方法详解
在SQL数据库操作中,投影连接(Projection Join)是一种常见的数据查询技术,它结合了投影(Projection)和连接(Join)两种操作
|
4月前
|
SQL 存储 监控
串口调试助手连接SQL数据库的技巧与方法
串口调试助手是电子工程师和软件开发人员常用的工具,它能够帮助用户进行串口通信的调试和数据分析
|
4月前
|
SQL 数据库 索引
内连接(INNER JOIN)在SQL中的简单应用与技巧
在SQL查询中,内连接(INNER JOIN)是一种基本且常用的连接类型,用于从两个或多个表中检索匹配的记录
|
4月前
|
SQL 开发框架 .NET
ASP.NET连接SQL数据库:实现过程与关键细节解析an3.021-6232.com
随着互联网技术的快速发展,ASP.NET作为一种广泛使用的服务器端开发技术,其与数据库的交互操作成为了应用开发中的重要环节。本文将详细介绍在ASP.NET中如何连接SQL数据库,包括连接的基本概念、实现步骤、关键代码示例以及常见问题的解决方案。由于篇幅限制,本文不能保证达到完整的2000字,但会确保