数据中心自动化运维之路

简介: 自动化运维其实也算是老生常谈,一谈谈了十几年,但却一直没有质的提升。

自动化运维其实也算是老生常谈,一谈谈了十几年,但却一直没有质的提升。数据中心的运维工作反而变得越来越繁重与复杂,当然这和这些年数据中心巨大的变化紧密相关,数据中心承载的各种应用越来越多,运维工作也变得异常复杂,简单的自动化运维已经不能彻底解决数据中心运维工作效率低下的问题。以前,数据中心运维人员就像流水线上的一名工人,不断重复地做着同样的工作,枯燥又容易出错,自动化运维就是要引入一些工具,通过这些工具来替代运维人员来工作,从而减少人力成本,同时提升数据中心的运维水平。


那么自动化运维,其实就是向数据中心引入一批工具,这批工具是“可编程”的,你只需要为这批工具写上几行“代码”,它便会帮你自动完成所有的工作,而这批工具就是实现自动化运维的手段。这些工具可以分为三大类:预备、配置管理和监控,从这三大方面代替人力工作。预备自动化工具常见的有Cobbler、Kickstart、OpenQRM、Spacewalk。在早期,Linux管理员整理出一个软件包列表,通过rpm进行批量软件安装。后来,我们用Kickstart来执行无人值守的Linux安装。现在,Cobbler把这个功能提升到了一个新的高度:它实现了物理机与虚拟机的并行系统构建,并且可以进行DHCP和DNS的配置。OpenQRM是开源系统管理解决方案,用来管理企业数据中心业务,同时包括虚拟环境管理、数据中心自动化,是一个基于Web的开源云计算和数据中心管理平台。Spacewalk是一个Linux和Solaris的系统管理解决方案,它是Red Hat网络卫星项目衍生出来的上游社区项目。这些预备管理工具多是针对服务器的,对服务器进行自动化管理,如果不是自己亲身使用和体验,很难说这些工具软件孰好孰坏,每种工具都有其适合的应用场合,这些工具尤其在互联网企业的数据中心运维中使用极为广泛,这些工具需要操作者具有较高的计算机编程能力,对运维人员的要求较高。


配置管理工具用来设置参数或者开启一个新服务器上的服务。配置管理可以用于服务器自动构建。服务器自动构建工具可以加速部署速度,并可以在短时间内大规模部署服务器,同时也可以让构建过程更容易复制。在发生严重故障时,还可以重建架构。配置管理工具常见的有Chef、ControlTier、Func、Puppet。比如Chef是一款自动化服务器配置管理工具,可以对管理的对象实行自动化配置,Chef由三大组件组成:Chef Server、Chef Workstation和 Chef Node。Chef Server 是核心服务器,维护了一套配置脚本,与每个被管节点交互并给出配置指令,Chef Workstation提供了我们与 Chef Server交互的接口:我们在Workstation上创建定义Cookbook,并将 Cookbook上传到Chef Server上以保证被管机器能从Chef Server 上取得最新的配置指令。Chef Node是安装了chef-client并注册了的被管理节点,可以是物理机或者虚拟机或者其他对象。Chef Node每次运行chef-client时都会从Chef Server端取得最新的配置指令并按照指令配置自己。ControlTier是一个完全开放源码系统的自动化服务管理活动的多个服务器和多个应用层的工具,它可以对数据中心里的各种设备进行自动配置下发和管理。


这些大部分工具都是实时的,可以用来进行变动并执行某些任务。它们却缺乏关于当前系统状况的信息,于是监控工具就有了用武之地。对于传统的系统管理员而言,监控无非是在发生错误的时候通过一个页面或者一封邮件提醒他们。监控工具常见的有Nagios、OpenNMS、Zabbix、Zenoss Core等等。Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等,当发现监控设备运行异常时,自动发出告警,还可以将告警消息发给运维人员,以便可以得到及时处理,避免异常对业务造成严重影响。OpenNMS是一个企业级基于Java/XML的分布式网络和系统监控管理平台,OpenNMS是你管理网络的绝好工具,它能够显示你网络中各中终端和服务器的状态和配置,可以监控各个网络设备运行的状态,互通情况,一旦出现异常立即可以上报异常告警。


说了这么多工具,不难发现这些工具主要针对的都是服务器的,部分工具有网络监控的功能,而且这些软件都是开源的、免费的,大家都可以根据自己的数据中心需要对这些软件进行修改,更加适应自己的数据中心,这样这些工具获得了很广泛的应用。网络是数据中心里最封闭的一个系统,对网络进行管理的软件也无法完全做到开源,所以那些免费的、网络上的软件都不是很好用,不得不使用网络设备厂家提供的网络管理软件,才能达到很好的适配效果。工具毕竟是死的,人是活的,工具只能按照继承的顺序来执行一些人为提前设置好的脚本而已,这样的自动化应该只能算是一种低级的运维方式。真正的自动化运维是可以和数据中心有机结合,数据中心运行中配置自动下发、网络自动调节,形成对应各种复杂场景的自适应数据中心,数据中心自动化运行。


这些工具的出现,为数据中心运维提供了极大方便,是自动化运维的具体表现。数据中心要走自动化运维的路,就需要大批地使用这些工具,通过这些工具逐渐代替运维人员的工作。运维人员通过自动化运维,将规范、常规的操作固定化,减少重复的手工操作,避免误操作。通过模板化,根据模块信息智能化分析,实现快速发单,同时串并行控制,提升模块更新效率,这就是数据中心自动化运维的时代,只有坚持走自动化运维的路,数据中心的运维效能才会有质的提升,让我们沿着数据中心自动化运维的道路坚持走下去。

相关文章
|
2月前
|
存储 运维 安全
AIGC时代数据中心运维面临的挑战
AIGC时代数据中心运维面临的挑战
69 1
AIGC时代数据中心运维面临的挑战
|
存储 运维 监控
数据中心运维的工作面临永远的痛
数据中心运维的工作面临永远的痛
344 0
数据中心运维的工作面临永远的痛
|
27天前
|
人工智能 运维 监控
未来数据中心的自动化运维技术探索
随着信息技术的快速发展,未来数据中心的运维需求将变得更加复杂而多样化。本文将探讨自动化运维技术在未来数据中心中的应用,分析其优势和挑战,并探讨如何实现高效的自动化运维管理。
|
2月前
|
存储 机器学习/深度学习 人工智能
AIGC时代数据中心运维的变革趋势
AIGC时代数据中心运维的变革趋势
56 1
AIGC时代数据中心运维的变革趋势
|
4月前
|
运维 安全 程序员
纵横“光明顶”,全靠这份全网独一份《数据中心设施运维指南》
数据中心设施运维,经常被与数据中心IT系统运维混为一谈。实际上,两者的工作虽然都以保证IT系统的可用性为最终目标,但在工作对象上,却是截然不同的。IT运维本质上是和比特(bit) 打交道,设施运维则主要和瓦特(Watt)打交道。
|
11月前
|
存储 监控 网络协议
「数据中心」数据中心脊页架构:数据中心结构管理、自动化和总结
「数据中心」数据中心脊页架构:数据中心结构管理、自动化和总结
|
11月前
|
传感器 存储 运维
「数据中心运维」集成和自动化的平台 StackStorm概述
「数据中心运维」集成和自动化的平台 StackStorm概述
|
运维 调度 数据中心
如何推进IT运维数据中心问题管理
在数据中心的管理中,问题管理通常因为没有事件管理、变更管理那么直接影响服务的可用性而被忽视,使得遗留下来的问题没有被及时解决,也会导致事件的重复发生,从而降低系统和服务的整体可用性
135 0
如何推进IT运维数据中心问题管理
|
存储 传感器 边缘计算
自动化将在2021年推动数据中心和网络创新
IT工作负载自动化不仅可以确保跨操作系统的流程、工作流和任务高效运行,并且无需在内部部署设施进行持续的人工干预,它还可以跨大规模的混合计算架构进行扩展。
142 0
|
机器学习/深度学习 传感器 人工智能
数据中心自动化和机器人的崛起
如今,人工智能(AI)和自动化的发展似乎不可阻挡。行业专家表示,机器人的崛起是不可避免的,如果是这样的话,那么机器人技术将对未来的数据中心产生什么样的影响?
146 0
数据中心自动化和机器人的崛起