-------冰山一角的服务器问题
盼望了好久的一个项目终于上线了,项目刚上线的喜悦还没有仔细品味,接二连三的应用问题让整个项目小组忙的手忙脚乱了,终于慢慢的一个个问题都解决了,我以为可以缓一口气了,哪里知道啊,这只是杯具的刚刚开始,接下来服务器的问题才刚刚是冰山一角,在前期,我们忙着解决应用问题的时候,暴露了几个服务器的问题,当时我们天真的以为是我们软件的问题,研发部门的同事接二连三的来诊断,最后终于排除了我们应用软件的问题,基本可以锁定是操作系统和硬件的问题。。。于是乎,哗啦啦,所有的技术支持一下子撤了一大半了,现场只留下 孤零零的几个同事,而且都是集成和应用的同事。。。
--------莫名死机相伴的服务器
服务器的问题是老是莫名的重启,后来发展到老是莫名的死机,那段日子里,电话被打爆了,2条腿也快跑断了,每当服务器宕机的时候,那个抓狂啊,不堪回首啊,真是悲剧啊。。。
--------不断升级中的维修服务器
在那段服务器莫名宕机的日子里,HP的保修电话被我打爆了,HP的工程师换了一茬又一茬了,从服务器的硬件的驱动升级,固件升级,可以升级的都升了,日志抓了又抓,HP的工程师,公司的研发一个个轮流发过去。。。最后都没有解决服务器的问题
----------得到最后一根救命的稻草
当时服务器死机的问题还没有解决,这时HP出了大事情,就是著名的"小强风波",研发的一个同事开玩笑的问我们客户的机房的卫生情况如何,说难道是小强让我的服务器死机的,不知道怎么让客户知道了,结果后果很严重,去我们的大老板那里去告状,大老板也是暴怒,一时这个事情成了公司内部的笑谈。。。汗颜啊。。。
----------峰回路转
服务器报修了有段时间了,最后公司内部的IT同事给了个信息,他们曾经也遇到过用RHEL4.7这个版本的一个场地,服务器也是老是出问题,他们给我的建议是升级下操作系统,升级操作系统---------说得容易啊,我的服务器配置难道让我重新安装配置,不是几个小时就能搞掂的啊。。。
面对如何升级服务器,这个问题又开始困扰我了,终于知道服务器的病根了,却又陷入了另外一个难题了,问了老板如何升级,老板意思是重新安装操作系统,全部重来,崩溃啊;问研发的同事,他们说这个他们没有操作过,他们不建议重新安装服务器,他们不建议这个方案,郁闷啊。。。。。。
悲哀啊,神啊,赐予我活下去的勇气和力量吧,谁来救救我啊。。。经过N个日夜的煎熬后,终于决定服务器是一定要升级的,呵呵,咱们只升级内核,哈哈,这个是好主意啊。。。
-----------艰难的虚拟机升级内核试验
有了方案,开始在虚拟机上安装好了和生产环境下的一样的环境,开始升级内核试验,我下了内核的源代码,翻遍了GOOGLE和百度上升级内核的资料,但是每次升级都是以失败告终。。。
反思为啥我的RP这么差啊,呵呵,这时反思自己的解决方法,天啊,为啥要要用编译内核这么高深的方法去升级内核啊,我不会用RPM包来升级吗,呵呵,顿时决定天亮了,在虚拟机上配置好了YUM,让它自动升级,呵呵,不到2分钟,提示安装成功,重启,居然成功了,我用 uname -a 看到的内核已经是升级了后的内核,方法,那个爽啊。。。。。。由于生产环境不能上网,就算配好YUM也不能使用,我从Yum服务下好的RPM包拷贝下来,传到了服务器上。。。。
--------------虚拟机和真实服务器的区别
在第二天的中午,我实在等不了,不想等到下班再升级服务器的内核了,呵呵,但是还是有些担心的,敲命令都是有点抖得,不管了,大不了服务器再死机。。。果然安装了内核的RPM包之后,重启服务器,显示的启动内核还是原来的版本,悲剧啊,郁闷啊,我呆呆的看着重启中的黑屏幕。。。
继续给公司的IT同事打电话求助,我在自己虚拟机上是成功的,为啥服务器上就失败了呢,很快,NB的同事告之方法,问题是我没有安装支持多核的另外一个RPM包,我的笔记本是单核的,自然虚拟机也是单核的,所以只安装了一个内核包就成功了,但是服务器是4个CPU的,我需要安装支持多核CPU的RPM包,呵呵,同时告诉我还需要安装一些其他和内核相关的RPM包,
kernel-smp (支持多核的RPM包)
kernel-smp-devel
kernel-utils
kernel
kernel-devel
kernel-hugemem
kernel-hugemem-devel
————————————————————————
下好了上面的包,一一安装好,怀着激动的心情重启了服务器,紧盯着黑色的屏幕,终于看到了 boot form kernel 2.6.9.80..........,,那个高兴啊,呵呵。。。终于成功了。。。
后记:服务器成功升级的第三天,那天我迟到了,客户打电话给我,说服务器怎么全死了,顿时我差点又崩溃过去,神啊,为何要这么对待我啊,呵呵,后来知道,这次不是我们服务器的问题,是他们的交换机的问题。。。
截止写稿,服务器已经连续跑了2个星期都没有死机。。。
本文转自你是路人甲还是霍元甲博客51CTO博客,原文链接http://blog.51cto.com/world77/323893如需转载请自行联系原作者
world77