我们一数据库服务器上有个作业最近几天偶尔会遇到下面错误(敏感信息已做处理),主要是报“TCP Provider: The semaphore timeout period has expired. [SQLSTATE 07008] (Error 121) OLE DB provider "SQLNCLI" for linked server "(null)" returned message "Communication link failure". [SQLSTATE 01000] (Error 7412). The step failed.”。 作业执行的存储过程使用了Linked Server。服务器为虚拟机Vmware下的Windows Server 2003。
1
Date
2016
/
6
/
2
9
:
15
:
20
2
Log
Job History (Job_Name)
3
4
Step ID
1
5
Server SERVERNAME
6
Job Name Job_Name
7
Step Name Job_Name
8
Duration
00
:
00
:
22
9
Sql Severity
16
10
Sql Message ID
7412
11
Operator Emailed
12
Operator Net sent
13
Operator Paged
14
Retries Attempted
0
15
16
Message
17
Executed
as
user
: NT AUTHORITY\SYSTEM. TCP Provider: The semaphore timeout period has expired.
[
SQLSTATE 07008
]
(Error
121
) OLE DB provider "SQLNCLI"
for
linked server "(
null
)" returned message "Communication link failure".
[
SQLSTATE 01000
]
(Error
7412
). The step failed.
关于这个错误,在网上查了一些资料。例如这篇文章TCP Provider: The semaphore timeout period has expired里面介绍了好多可能导致这个错误出现的原因,例如TCP Chimney没有禁用,系统内存压力等,一一排除过后,觉得很有可能是网络问题,在这台服务器上,持续ping那台链接过去的服务器,
M:\DB_BACKUP>ping -t 192.168.xxx.xxx> ping.txt
持续ping 了二十多个小时候,期间作业出现了一次上述问题,期间掉包14个,应该可以印证就是虚拟机之间的网络掉包导致了这个作业的错误出现。关于如何诊断网络问题,可以参考一下官方文档如何解决网络连接问题. 问题是基本定位了,但是如何解决是个让系统管理员都头痛的问题。
参考资料: