开发者社区> 沉默术士> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

面对多变性天气,IT经理如何确保安全运维?

简介:
+关注继续查看

面对多变性天气,企业IT机房和数据中心同样面临管理、安全等多方面考验。

IT机房和数据中心对企业业务发展尤为重要,由于国内气候环境的多变性,为IT运维管理带来了巨大挑战。夏季机房,IT经理不仅要解决机房温度湿度、保障服务器设备稳定运行及确保数据安全等问题,还要承受降低企业总体拥有成本的压力。

我们知道大多数机房都建有制冷系统,来保证内部温度在22℃的安全线以内。但是,夏季持续性高温会多引发系统、硬件异常工作,甚至是瘫痪罢工,且机房和数据中心的内部温度比平均水平每升高10度,数据中心“融化”的风险就会提高5%。如何确保机房或数据中心在高温多雨天气下安全、稳定的运维,成为众多IT经理当下迫切希望解决的问题。

作为企业的CIO或IT管理者如何解决这些“热”烦恼、“雨”担忧,不妨从以下几方面着手做起。

强化数据中心制冷系统

数据中心,支撑整个企业IT系统正常运转的后台架构,其包含计算、存储、网络等多种高性能、高密度硬件设备。如服务器、存储设备在作为动力源同时也成为热源的生产者,再加之夏季温度一再攀升,IT经理不得不采取措施,强化制冷系统,确保内部温度在安全线以内。

第一,结合企业自身数据中心架构布局,建设可随负荷变化的管理制冷系统。在满负载工作情况下,可提供足够的冷量和风量;不满负荷情况下,制冷系统可提供恰当的风量,在保证精确调节同时,也能更好的绿色节能,节约成本。

第二,根据数据中心不同密度区域,采用不同的制冷形式。例如,可在刀片服务器高密度区域采用水冷机柜等。

第三,可选用气流送风技术,但要做到非常均匀的送风,实际操作则具有一定难度,在此不建议中小企业采用。

小结:数据中心制冷系统强化,需CIO依据内部设施布局进行慎重建设。

选择合适的服务器设备

除了通过强化数据中心制冷系统外,从硬件基础设施出发同样能做到节能降耗、平台正常运转功效。面对极端环境或特殊应用的需求,设备生产商精益求精,针对高温环境推出耐高温服务器或自带降温技术设备的整体解决方案,例如戴尔PowerEdge服务器就可在-5℃到45℃之间正常运行。

戴尔为了确保企业数据中心的服务器、存储等设备能够在高温环境正常运行,降低额外的维护和基础设施成本,在研制耐高温服务器同时,为企业数据中心打造新风冷却解决方案。借助该解决方案组合不仅具备高散热能力和可靠性等优势,还使得方案中的服务器、存储和网络设备允许在更高温度条件下安全、稳定的运行,避免因高温宕机“罢工”现象。

小结:IT机房或数据中心拥有良好的服务器、存储设备不仅能降低IT故障率,更重要的是降低了企业TCO。

建立设备实时监控机制

企业IT机房设备(服务器、存储、交换机等)绝大部分是24×7小时运行,面对高温、多雨季节,企业应建立设备实时监控机制。监控机制包括两部分:员工实时检查和网络实时监测。

企业部署相关员工对服务器设备运行数据进行按日分析,并整理出服务器工作日志,以便第一时间处理异常现象;同时对服务器机房进行按日检查,避免人为诸如机房乱堆放杂物、有灰尘等情况干扰服务器正常运行。另一方面,企业选择一套服务器监控解决方案,对服务器进行实时监控,一旦出现宕机、存储硬盘受损及时发出警报,第一时间安排相关技术人员进行整修。

服务器、存储提供商在保障产品品质外,还会为其定制或添加多功能工具和软件,以应对企业多方面需求。而戴尔作为中国服务器第一大提供商,在产品日常维护方面更是行业第一。戴尔12G服务器内置硬件诊断工具Diagnostics,且无需依赖操作系统,若诊断出硬件不能正常工作,会自动发出警报;同时,戴尔为用户提供OpenMange Essentials系统管理软件,提供免代理监控服务。

除戴尔服务器外,IBM、HP、华为等服务器均有类似诊断工具或管理软件。

小结:人无远虑,必有近忧。企业亦如此,单纯依靠人工进行设备实时监控,必将投入大量人力物力。因此,选择成套的服务器监控解决方案才是最佳监控措施。

制定灾难备份修复方案

夏季机房突发情况有许多,诸如机房断电、服务器宕机、存储硬盘损坏等等,为保证机房正常运行,防患于未然,企业在夏季做好相应的灾备措施具有重大意义。

既然设备故障问题(服务器宕机等)不可避免, IT经理就需在购买设备时与相关IT专家进行讨论,分析企业可能会出现故障的情况,并将这些情况分析结果形成意见,制定一套灾备修复方案,以减少因故障而带来的损失。具体方案有:

加强设备维护检查,制定设备在夏季运行方案;储备或协调后备应急水源及燃料,保证在断电、断水情况发生时有足够的备用资源;以主动措施应对被动状况,例如储备应急冰块、购置通风用轴流风机、水喷淋措施等。

小结:做好灾备修复方案对企业来讲至关重要,不仅保证了平台正常运行,还进一步确保了数据的安全性。

做好防水、防雷安全措施

IT机房或数据中心做好上述几点就万无一失了吗?答案显然是否定的,企业机房还需做好防水、防雷等安全措施。

机房内摆放着大量的精密、贵重计算机及网络设备,其均具备高密度、高速度、低电压和低功耗等特性,不仅怕水,还对各种诸如雷电过电压、电力系统操作过电压、静电放电、电磁辐射等电磁干扰非常敏感。如果防护措施不力,企业随时可能遭受重大损失。

夏季多雨,机房更应防止漏水事故发生。IT经理可直接通过降低机房空调供水管道的压强来解决漏水隐患。通过对机房专用空调加湿器的供水系统的分析,专家认为机房专用空调加湿罐补水时并不需要过高的供水压力,相反降低了机房空调供水管道的压强,可使供水管道中的阀门、接头、弯头、管壁所承受的压力降低,安全系数提高,有利于机房空调安全供水的实现。

有雨必有雷。为了保护建筑物和建筑物内各项电子网络设备不受雷电损害或使雷击损害降低到最低程度,应从整体防雷的角度来进行防雷措施的设计。IT机房主要应从UPS电源系统防雷保护、通讯系统的防雷与过电压保护及防雷器的安装与接线着手做起。

小结:尽管IT机房在建设之初已经做过防水、防雷、防震等突发灾难措施,但在夏季多雨时节,仍需做好检查和防御措施,防患于未然。

随着大数据崛起、云计算渐成企业宠儿,各类计算越来越依赖数据中心;业务的多样化,也对IT机房的设备管理、运维以及安全等多方面提出了更高要求。面对故障多发期,夏季对机房和数据中心来讲均是一个严峻的考验。因此,IT经理做好夏季机房故障防御措施十分重要。

面对夏季对机房多方面影响,IT经理除了采取一定有效措施防御故障发生外,更希望在保证平台正常运维下降低企业TCO,来提升整体能效。据DataCenterUsersGroup调查显示,数据中心能效已迅速成为业界优先考虑事项。绝大多数受调查者认为,数据中心在制冷设备(49%)、服务器(46%)、电源设备(39%)和存储设备(21%)等方面存在巨大的能效改善机会。由此可见,企业迫切降低投入、运维等成本。而最直接、最有效做到这一点的方案就是,企业在为机房采购设备时,从一开始就选择具备低能耗、耐高温等特性设备或成套解决方案,不仅可以有效减少故障率,亦能够降低企业整体拥有成本。

本文转自d1net(转载)

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
如何推进IT运维数据中心问题管理
在数据中心的管理中,问题管理通常因为没有事件管理、变更管理那么直接影响服务的可用性而被忽视,使得遗留下来的问题没有被及时解决,也会导致事件的重复发生,从而降低系统和服务的整体可用性
0 0
用积木讲运维,这样的IT人太会了
日志服务SLS提供数据采集、加工、分析、告警可视化与投递功能,为AIOps、大数据分析、运营服务、大数据安全等场景提供支撑,并能以搭积木的方式适配各类运维场景,辅助企业的IT决策。近日,日志服务SLS新增了两项重磅功能,有助于进一步提升研发、运维等场景数字化能力。
0 0
2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变
InfoQ 获悉,近日,博睿数据联合艾瑞咨询共同发布了《2022企业应用运维管理指标体系白皮书》(以下简称《白皮书》)。 《白皮书》从企业 IT 运维的内涵以及在当前数字经济发展的大环境下企业 IT 运维工作在技术、战略、组织架构等方面面临的变化和问题做了详细说明,并展示了一种以业务和应用为着眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了详细说明。
0 0
企业IT运维的目的?华汇数据
在企业IT工程师团队中,对“三分技术,七分管理”这句箴言的信奉者占据了绝大数。当多个行业企业信息化建设走过大规模新建期后,IT运维成为企业IT的常态。系统、数据与业务的日益复杂,都加剧了企业IT运维的难度。
0 0
IT运维人员,把握现在展望未来
  近年来,互联网在中国的发展势头迅猛并呈现出广阔前景。根据中国互联网络信息中心报告显示,截至2020年3月,我国网民规模已经达到9.04亿,互联网普及率增至67.0%,超全球平均水平。   互联网强劲发展的背后是整个IT行业的蓬勃。国家统计局发布的2019平均工资数据表明,工资最高的行业是信息传输、软件和信息技术服务业,IT行业从业人员平均年薪已超16万元。
0 0
IT运维系统可用性分析
提供对应用可用性与负载之间的变化规律进行分析,以了解负载是否是造成可用性问题的原因。并且提供从应用模块、地域、用户组、服务器等多个角度对可用性进行对比分析,帮助用户了解问题是全局性还是局域性,以逐步缩小问题范围。同时系统也提供前N位最不可用的动作(页面)清单,以帮助用户找出经常出错页面供研究分析。
0 0
报表管理在IT运维系统中主要有哪些?
DCOM提供各种监控统计分析,包括TopN排名分析、指标趋势分析、统计分析、时段对比分析、资源对比分析等,帮助运维人员准确评估IT环境运行情况,及早发现故障隐患和变化趋势,为IT运维决策提供参考依据。
0 0
强化企业 IT 运维的五大 AIOps 策略
在现代化的企业中工作,我们希望 AIOps(中文资料中也称为“智能运维”——译者注)能强化 IT 运维,使企业在提高性能的同时降低成本、预防 IT 事故并提高业务的敏捷性。但在市场上存在着多种差异化的 AIOps 产品,我们如何能确保所选路线的正确性?一旦决定采用 AIOps,应如何最大化地发挥其作用?
0 0
企业IT运维的目的?
建设一个包含区域中心和各分支机构IT运营的平台,通过平台协助IT决策者分析IT问题,并深入了解IT基础架构支持业务流程的能力,以及IT服务管理在提供端到端IT服务过程中的作用,以协助他们更好地处理与服务提供方之间关系,实现商业利益。
0 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
IT数字化转型-打造可衡量的高可用及数字化运维
立即下载
金融IT运维对应用性能的提升
立即下载
破壁计划--顺丰IT运维转型的最初一公里
立即下载