DELL R710服务器宕机案例(2)-阿里云开发者社区

开发者社区> 余二五> 正文

DELL R710服务器宕机案例(2)

简介:
+关注继续查看
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
我的博客已迁移到xdoujiang.com请去那边和我交流
May 10 10:54:29 sd 0: 2:0:0: megasas: RESET -936872901 cmd=2a
May 10 10:54:29 10.1.1.1 megasas: [ 0]waiting for 3 commands to complete
May 10 10:54:34 10.1.1.1 megasas: [ 5]waiting for 3 commands to complete
May 10 10:54:39 10.1.1.1 megasas: [10]waiting for 3 commands to complete
May 10 10:54:44 10.1.1.1 megasas: [15]waiting for 3 commands to complete
May 10 10:54:49 10.1.1.1 megasas: [20]waiting for 3 commands to complete
May 10 10:54:54 10.1.1.1 megasas: [25]waiting for 3 commands to complete
May 10 10:54:59 10.1.1.1 megasas: [30]waiting for 3 commands to complete
May 10 10:55:04 10.1.1.1 megasas: [35]waiting for 3 commands to complete
May 10 10:55:09 10.1.1.1 megasas: [40]waiting for 3 commands to complete
May 10 10:55:14 10.1.1.1 megasas: [45]waiting for 3 commands to complete
May 10 10:55:19 10.1.1.1 megasas: [50]waiting for 3 commands to complete
May 10 10:55:24 10.1.1.1 megasas: [55]waiting for 3 commands to complete
May 10 10:55:29 10.1.1.1 megasas: [60]waiting for 3 commands to complete
May 10 10:55:34 10.1.1.1 megasas: [65]waiting for 3 commands to complete
May 10 10:55:39 10.1.1.1 megasas: [70]waiting for 3 commands to complete
May 10 10:55:44 10.1.1.1 megasas: [75]waiting for 3 commands to complete
May 10 10:55:49 10.1.1.1 megasas: [80]waiting for 3 commands to complete
May 10 10:55:54 10.1.1.1 megasas: [85]waiting for 3 commands to complete
May 10 10:55:59 10.1.1.1 megasas: [90]waiting for 3 commands to complete
May 10 10:56:04 10.1.1.1 megasas: [95]waiting for 3 commands to complete
May 10 10:56:09 10.1.1.1 megasas: [100]waiting for 3 commands to complete
May 10 10:56:14 10.1.1.1 megasas: [105]waiting for 3 commands to complete
May 10 10:56:19 10.1.1.1 megasas: [110]waiting for 3 commands to complete
May 10 10:56:24 10.1.1.1 megasas: [115]waiting for 3 commands to complete
May 10 10:56:29 10.1.1.1 megasas: [120]waiting for 3 commands to complete
May 10 10:56:34 10.1.1.1 megasas: [125]waiting for 3 commands to complete
May 10 10:56:39 10.1.1.1 megasas: [130]waiting for 3 commands to complete
May 10 10:56:44 10.1.1.1 megasas: [135]waiting for 3 commands to complete
May 10 10:56:49 10.1.1.1 megasas: [140]waiting for 3 commands to complete
May 10 10:56:54 10.1.1.1 megasas: [145]waiting for 3 commands to complete
May 10 10:56:59 10.1.1.1 megasas: [150]waiting for 3 commands to complete
May 10 10:57:04 10.1.1.1 megasas: [155]waiting for 3 commands to complete
May 10 10:57:09 10.1.1.1 megasas: [160]waiting for 3 commands to complete
May 10 10:57:15 10.1.1.1 megasas: [165]waiting for 3 commands to complete
May 10 10:57:20 10.1.1.1 megasas: [170]waiting for 3 commands to complete
May 10 10:57:25 10.1.1.1 megasas: [175]waiting for 3 commands to complete
May 10 10:57:30 10.1.1.1 megasas: failed to do reset
May 10 10:57:30 sd 0: 2:0:0: megasas: RESET -936872901 cmd=2a
May 10 10:57:30 10.1.1.1 megasas: cannot recover from previous reset failures
May 10 10:57:30 sd 0: 2:0:0: megasas: RESET -936872901 cmd=2a
May 10 10:57:30 10.1.1.1 megasas: cannot recover from previous reset failures
May 10 10:57:30 sd 0: 2:0:0: scsi: Device offlined - not ready after error recovery
May 10 10:57:30 sd 0: 2:0:0: scsi: Device offlined - not ready after error recovery
May 10 10:57:30 sd 0: 2:0:0: scsi: Device offlined - not ready after error recovery
May 10 10:57:30 sd 0: 2:0:0: SCSI error: return code = 0x06000000
May 10 10:57:30 10.1.1.1 end_request: I/O error, dev sda, sector 753410861
May 10 10:57:30 Buffer I/O error on device sda6, logical block 84894796
May 10 10:57:30 lost page write due to I/O error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 Buffer I/O error on device sda1, logical block 6794075
May 10 10:57:30 lost page write due to I/O error on sda1
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 Aborting journal on device sda1.
May 10 10:57:30 Buffer I/O error on device sda1, logical block 6816387
May 10 10:57:30 lost page write due to I/O error on sda1
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 Buffer I/O error on device sda6, logical block 55100852
May 10 10:57:30 lost page write due to I/O error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 Buffer I/O error on device sda6, logical block 55187141
May 10 10:57:30 lost page write due to I/O error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 Buffer I/O error on device sda6, logical block 55200454
May 10 10:57:30 lost page write due to I/O error on sda6
May 10 10:57:30 Buffer I/O error on device sda6, logical block 55200455
May 10 10:57:30 lost page write due to I/O error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 Buffer I/O error on device sda6, logical block 55229048
May 10 10:57:30 lost page write due to I/O error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 Buffer I/O error on device sda6, logical block 63269557
May 10 10:57:30 lost page write due to I/O error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 Buffer I/O error on device sda6, logical block 85296045
May 10 10:57:30 lost page write due to I/O error on sda6
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: SCSI error: return code = 0x06000000
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 ext3_abort called. 
May 10 10:57:30 EXT3-fs error (device sda1): ext3_journal_start_sb: Detected aborted journal
May 10 10:57:30 Remounting filesystem read-only
May 10 10:57:30 10.1.1.1 end_request: I/O error, dev sda, sector 756620997
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: SCSI error: return code = 0x06000000
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_committed_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_committed_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_committed_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_committed_data
May 10 10:57:30 journal commit I/O error
May 10 10:57:30 10.1.1.1 end_request: I/O error, dev sda, sector 750704733
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 Aborting journal on device sda6.
May 10 10:57:30 EXT3-fs error (device sda6) in ext3_ordered_commit_write: IO failure
May 10 10:57:30 Remounting filesystem read-only
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 EXT3-fs error (device sda6) in ext3_ordered_commit_write: IO failure
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_committed_data
May 10 10:57:30 10.1.1.1 __journal_remove_journal_head: freeing b_frozen_data
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:30 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:31 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:31 EXT3-fs error (device sda6): ext3_get_inode_loc: 
May 10 10:57:31 unable to read inode block - inode=21004483, block=84017166
May 10 10:57:31 10.1.1.1  
May 10 10:57:31 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:31 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:31 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:31 EXT3-fs error (device sda1): ext3_get_inode_loc: 
May 10 10:57:31 unable to read inode block - inode=680717, block=2719877
May 10 10:57:31 10.1.1.1  
May 10 10:57:33 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:57:33 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:58:01 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:58:01 10.1.1.1 printk: 256 messages suppressed.
May 10 10:58:01 Buffer I/O error on device sda1, logical block 6750208
May 10 10:58:01 lost page write due to I/O error on sda1
May 10 10:58:01 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:58:01 Buffer I/O error on device sda1, logical block 6750297
May 10 10:58:01 lost page write due to I/O error on sda1
May 10 10:58:01 Buffer I/O error on device sda1, logical block 6750298
May 10 10:58:01 lost page write due to I/O error on sda1
May 10 10:58:01 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:58:01 Buffer I/O error on device sda1, logical block 6750307
May 10 10:58:01 lost page write due to I/O error on sda1
May 10 10:58:01 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:58:01 Buffer I/O error on device sda1, logical block 6782976
May 10 10:58:01 lost page write due to I/O error on sda1
May 10 10:58:01 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:58:01 Buffer I/O error on device sda1, logical block 6790663
May 10 10:58:01 lost page write due to I/O error on sda1
May 10 10:58:01 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:58:01 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:58:06 sd 0: 2:0:0: rejecting I/O to offline device
May 10 10:58:06 10.1.1.1 printk: 26 messages suppressed.
May 10 10:58:06 Buffer I/O error on device sda1, logical block 0
May 10 10:58:06 lost page write due to I/O error on sda1
May 10 10:58:06 sd 0: 2:0:0: rejecting I/O to offline device
May 10 11:00:05 sd 0: 2:0:0: rejecting I/O to offline device
May 10 11:03:01 sd 0: 2:0:0: rejecting I/O to offline device
May 10 11:03:01 sd 0: 2:0:0: rejecting I/O to offline device
May 10 11:07:17 EXT3-fs error (device sda1): ext3_get_inode_loc: 
May 10 11:07:17 unable to read inode block - inode=1798783, block=7208965
May 10 11:07:17 10.1.1.1  
May 10 11:07:27 sd 0: 2:0:0: rejecting I/O to offline device
May 10 11:07:27 EXT3-fs error (device sda1): ext3_find_entry: 
May 10 11:07:27 reading directory #1275457 offset 0
May 10 11:07:27 10.1.1.1  
May 10 11:07:27 sd 0: 2:0:0: rejecting I/O to offline device
May 10 11:07:27 sd 0: 2:0:0: rejecting I/O to offline device
May 10 11:07:27 sd 0: 2:0:0: rejecting I/O to offline device
==============================================================================
DELL R710的机器 查看日志发现是硬盘掉了 联系机房工程师看了面板 发现前面板LCD上有报错
信息 分别是E171F E1211 E2022,最后解决办法是将原来raid 5(8块盘)拔下换到新的机器上。
注意的事需要导入raid信息,之后就OK了。
 
E171F
PCIE Fatal Err B## D## F##
PCIE Fatal Err Slot #
系统 BIOS 已报告组件的 PCIe 致命错误,该组件所在的 PCI 配置空间位于总线 ##,设备 ##,功能 ##。
系统 BIOS 已报告组件的 PCIe 致命错误,该组件位于插槽 #。
卸下并重置 PCI 扩充卡。如果问题仍然存在,请参阅排除扩充卡故障。
如果问题仍然存在,则表示系统板出现故障。请参阅获得帮助。
 
E1211
ROMB Batt
RAID 电池丢失、损坏或因温度问题而无法再充电。
重置 RAID 电池。请参阅更换 SAS RAID 控制器子卡电池和排除系统冷却故障。
 
E2022
POST Fail
视频后出现一般故障。
请查看屏幕上的具体错误信息。









本文转自 xdoujiang 51CTO博客,原文链接:http://blog.51cto.com/7938217/1650775,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
+关注
20382
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载