IDC服务器故障排除思路

简介: 本文详细介绍了服务器维修流程,包括维修前的工具和备件准备,以及不拆机情况下的初步检查步骤。文中还提供了拆机维修的具体方法,如最小化测试法、替换法和交叉比较法,并针对CPU、主板、内存、硬盘、电源、风扇、网卡及BMC等主要配件的故障排除进行了说明,强调了注意事项,旨在帮助技术人员快速准确地定位并解决问题。

一、维修前准备

1、工具准备

笔记本电脑、拆机工具、DOS系统引导U盘、U盘Linux系统、万用表(主板或不开机故障)、防静电手环、网线、散热硅胶等。

2、备件准备

硬盘、内存、CPU、主板、电源模块等备件

二、常规检查

在不拆机、不断电的情况下检查故障服务器

1、检查开机状态下服务器指示灯是否正常

2、检查有无明显异味、有无明显异响

3、检查外观有无明显磕碰、变形等物理损伤

4、检查电源线、电源开关是否正常

5、登录BMC系统,查看设备状态和日志,定位故障服务器部件

6、在授权可以关机断电的情况下,重启服务器,查看BIOS信息和BMCSEL信息定位服务器故障部件

7、如确定为可热插拔的设备造成,可以直接不关机的情况下进行更换解决,比如更换硬盘

三、拆机维修

提前佩戴好防静电手环,手环必须接触皮肤,不可以带到衣服之外,另一端连接到能够接地的金属器物,比如机柜等。

1、最小化测试法

当无法定位到具体故障时,可以通过能开机的最小化配置并逐步添加部件来判断故障范围。

除了主板外,只保留单颗CPU、单根内存,一个PSU,用短接开关针脚方式开机,来进行判断。再依次替换部件进行排查。如果最小化可以正常开机,再逐步添加其他部件,通过重启服务器来判断是哪个部件故障。

2、替换法

当大概知道故障范围时,可以通过1-3个部件逐步替换来查找出具体故障,检查故障现象是否有变化,来确认具体故障点。

通过逐一替换服务器内的疑似故障部件,观察故障现象是否消失,以此定位故障部件。可以先替换比较容易出故障的部件,比如硬盘、内存等。

3、交叉比较法

通过同类型的部件(出现故障的零件和正常运行的零件)交叉安装测试,来排除故障部件。如果出现故障状况消失,则有可能是部件安装不到位。如果故障状况随报错部件转移,则可以判断此报错部件为故障,将其更换。如果故障状况没有随报错部件转移,则可以判断非此部件故障,需要继续进行交叉替换测试。

PS:以上方法,不一定单独使用,可以具体情况具体分析,可以灵活组合使用

四、主要配件故障排除思路

1、CPU故障

1.1、无法开机

1)查看服务器的BMC log日志,来定位故障CPU位置

2)拆机检查故障位置CPU和散热器是否存在接触问题

3)重新拆装CPU确认接触针脚是否弯曲不良

4)单CPU测试、交叉更换CPU测试,确认是否是单CPU故障

5)最小化测试,确认是否是其他部件故障

6)给主板的CMOS放电

1.2、死机或频繁自动重启

1)进BMC系统查看CPU温度以及各风扇状态是否正常

2)如果温度异常的话,拆机检查服务器挡风罩是否安装到位。检查CPU散热片固定螺丝是否松动,和散热器的接触是否异常,CPU硅脂是否涂抹。如温度正常,则交叉测试CPU,来确认是否是CPU自身故障。

1.3、报内存错误

只有多条内存的报错位置属于同一CPU控制的情况下,才有可能是CPU故障。

1)确认内存槽位,以此确认所涉及的CPU位置

2)CPU交叉测试

PS:CPU故障注意事项:

1)更换CPU的时候,注意卡座上的防呆标志(小三角标志或者缺口位置),对齐再安装,防止针脚压弯

2)必须在CPU表面均匀涂抹一层薄薄的散热硅脂

3)加固散热片螺丝的时候必须保证所有螺丝都无法再手工转动

4)安装螺丝的方法:先按对角顺序挂上螺丝,然后再逐步拧紧

5)注意保持CPU触点面的干净,不能黏上散热硅脂等其他异物

2、主板故障

2.1、无法开机

1)先查看BMC log日志的报错信息,如有明确的信息,则按照信息更换相应的硬件。如果故障件集成在主板上,则需要更换主板

2)拆机检查主板外观是否异常,如有物理损坏(磕碰或烧毁部件等),直接更换主板

3)给主板CMOS电池放电,再测试开机

2.2、死机或者无法识别连接部件

1)查看CPU温度是否过高,排除CPU故障

2)通过替换法测试,最小化配置法测试

PS:主板故障的注意事项

1)更换主板会涉及很多部件的拆装,拆装过程中,要轻拿轻放,不要互相磕碰。

2)拆卸、安装时要双手拿握,小心安放。要保证主板放置到位,注意各个部件的连线,依次插接,相应螺丝也要逐步拧紧。

3、内存故障

内存故障主要原因为:内存松动、内存不良、主板内存插槽不良、内存金手指氧化等。可以查看BMC log日志信息,是否存在告警。

PS:内存故障注意事项

1)内存安装时必须插接到位,两边的卡扣必须卡紧

2)故障排除后,需要在BIOS系统和BMC系统中复核内存状态,确认内存是否能够正常识别。

4、硬盘故障

硬盘故障主要原因为:硬盘松动、硬盘接触不良、插接件不良以及松动(硬盘背板、RAID卡、SAS\SATA\PCIe线)

1)查看硬盘状态指示灯是否正常,如果为红灯状态,则确认为硬盘故障,需要更换此硬盘。

2)根据报错日志、BMC日志等,定位报错硬盘物理位置

3)如果硬盘批量丢失,需要替换测试RAID卡和硬盘背板是否存在故障

PS:硬盘故障注意事项

1)更换完硬盘后,需要在BIOS系统、BMC系统或者无盘系统输入命令lsscsi(PCIe硬盘需要使用命令lsblk),确认是否可以识别到硬盘

2)RAID阵列的硬盘故障,需要提前备份好数据,尽量不要使用交叉测试来排除故障,以免造成数据丢失

5、电源故障

电源故障主要原因为:电源接触不良、电源线松动、电源背板不良或松动。

1)检查电源线是否插上或插紧

2)检查PSU指示灯是否正常(绿灯常亮为正常,橙灯或绿灯闪烁为PSU故障)

3)更换PSU后,电源仍无法工作,检查PSU背板或主板

4)可以进入OS查看电源信息,使用命令为ipmitool sdr elist | grep PS,如果输出的电源指标信息不符合要求,则该PSU故障

6、风扇故障

风扇故障主要原因为:风扇不良、插接不良、线位不对(这种情况多出现在更换主板后)、主板风扇电源口故障或主板BMC版本与风扇型号不符等

1)进BMC系统检查是否可以识别到风扇,风扇转速是否在正常范围

2)拆机检查风扇,并重新插拔

3)更换新风扇后再进行测试,如果风扇转速还是异常,则更换风扇背板(部分特殊机型)

4)如果依然无法解决,直接更换主板

7、网卡故障

网卡故障主要原因为:网卡不良、接触不良、网络环境存在异常

1)检查网卡指示灯,如果网卡指示灯不亮,更换网线测试,如果还不亮,则网卡故障。

2)在OS下查看,是否可以识别到网卡信息,如果没有的话,重新插拔一下网卡,如果依据无法识别,则网卡故障

3)在OS下使用ping查看是否存在丢包,使用ip -s link(或ifconfig)结果中查看RX&TX的dropped和error是否为0,如果不为0,则存在问题

4)更换网卡后依旧存在故障,则更换主板

5)更换网卡后,如果故障消失,需要在OS下对网卡状态和网络传输状况进行复查

8、BMC故障

1)使用网线将笔记本电脑连接到BMC管理口,查看BMC管理口指示灯是否正常。如果指示灯不亮,则更换主板。

2)给BMC分配一个IP,如果BMC可以获取到IP,则进行ping测试。如果无法获取,则BMC故障,需要更换主板

总结:1、系统无法开机和死机基本都是CPU、内存、主板故障导致的;系统自动重启一般也是和主板CPU有关

2、服务器故障处理,一般需要综合处理,综合判断,灵活使用

相关文章
|
18天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
15天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2555 20
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
11天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
15天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1545 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
13天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
17天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
744 14
|
12天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
563 6
|
5天前
|
Docker 容器
Docker操作 (五)
Docker操作 (五)
153 68
|
5天前
|
Docker 容器
Docker操作 (三)
Docker操作 (三)
144 69
|
17天前
|
人工智能 自动驾驶 机器人
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。
586 49
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界