《运维之下》 第三章、运维平台

简介:

第三章 | 运维平台


服务可管理的前提是运维数据的准确性,而标准化和流程化是保证数据准确性的前提。只有提供准确的运维数据,才能进一步实现服务的运维自动化。所以,一个能够准确记录和管理服务信息的运维平台,对于运维的发展至关重要。


在运维团队组建初期,运维平台建设一直属于运维团队的工作重点。通过标准和流程的约束,保证信息准确地录入到平台,以便能够准确提供运维所需要的各种维度信息,帮助运维人员开发更上层的系统,获取运行状态、资源占用等信息,与部署系统联动进行服务的动态调度部署和故障容错。
一个真实案例中,早期的运维平台有服务器管理、IDC管理、监控(Zabbix)、密码管理、故障记录等这几个模块,更多的是信息记录,更像一个网页版的Excel。没有流程的引入,信息录入完全依赖于人。这个时候的信息仅仅用来对账,滞后不准确的数据无法作为运维工具的基础依据,更谈不上自动化。平台各个功能模块之间没有信息关联,所有信息如一个个孤岛,对于运维的价值非常低。
随着需求场景的进一步明确,平台在不断建设。形成了两个大的运维平台,即:资产管理平台和服务管理平台。
资产管理平台 负责记录基础的物理信息,如:IDC、服务器(资产编号、参数、采购时间、供应商)、配件、网络设备、IP地址、ACL等。提供了多个子功能,如:预算管理、自助装机、故障报修、IP地址管理、ACL管理、LVS管理等。资产管理平台作为所有物理资源的唯一出入口,通过流程将预算管理、故障管理这些可能导致资产信息变更的环节打通。新采购的服务器录入到资产管理平台,服务器报废也必须经过它。通过资产管理平台,可以很方便地查询各种物理资源的使用情况。比如,一共有多少服务器、有哪些机房、机房的机柜分布情况、每个机柜摆放的服务器位置等信息。
服务管理平台 记录了业务运维所需的逻辑信息,提供一个基于树状结构(注:后续简称“服务树”)和权限绑定的管理模型。基于服务树和权限管理,实现域名管理、监控系统、部署自动化、环境初始化等子功能。服务管理平台记录了多个维度的服务信息,比如,产品线内有多少台服务器;谁具备这些服务器的登录权限;产品线对外使用了哪些域名;服务器上部署了什么服务;服务运行的状态、版本、路径;服务都添加了哪些监控等各维度信息。
可以认为资产管理平台和服务管理平台的信息集合就是ITIL里的CMDB(ConfigurationManagement Database)。由于每个运维子团队的分工不同,平台定位和用户场景不同,出于敏捷建设的考虑,我们将它拆分成了两个平台。资产管理平台的主要用户是系统运维工程师,他们关注设备的出入、维修等管理工作,交付资源给上层业务;服务管理平台的主要用户是应用运维工程师、研发工程师和测试工程师,他们关注服务运行的相关数据。虽然是分开的两个平台,但平台之间通过流程和API接口,实现了数据的相互关联。
资产管理平台负责底层的物理信息管理,提供API供服务管理平台查询和同步。服务管理平台通过API获取新交付的服务器列表及其详细信息,将它们归属到服务树产品线节点,分配对应的权限。应用运维工程师在服务树上领取空闲服务器,进行一系列的环境初始化、服务部署、监控添加等工作。应用运维工程师在服务管理平台提交报修申请、服务器归还等操作,通过API将信息推送到资产管理平台,由系统运维工程师进行相应处理。
两个平台负责所提供信息的准确性,对外提供API接口,可以供更上层的业务使用。基于这些信息,我们可以做更多智能化、自动化的工具开发。下面分享几个实际案例中的应用场景。


场景1:Hadoop数据存储管理 我们有大量的数据存储在Hadoop集群上,出于节省成本的考虑,我们将以前的3副本变更为1.5副本,降低一倍存储量。为了避免相同数据存储在同一个机柜的服务器内,降低由于单机柜断电或者同机柜服务器多块磁盘故障导致数据丢失的可能性,我们通过平台提供的API,获取Hadoop集群所有服务器的机房、机柜分布和机架位置信息,在存储数据的时候进行合理的动态调配。

场景2 :智能报警合并当服务器死机、机柜断电或接入交换机故障、机房断电或核心网络故障时,往往会收到大量的报警信息。我们可以通过平台提供的信息,对报警信息进行最大程度的聚合,减少报警发送的条目,而且能更好地帮助运维人员快速定位故障。当一台服务器死机的时候,通过监控项与服务器的关联信息,将这台服务器相关的SSHD监控、Nginx监控等报警信息进行聚合,合并成一条服务器宕机报警;当一个机柜断电后,我们可以将该机柜下接入交换机交换机和每台服务器的报警进行聚合,合并成一条机柜或接入交换机故障报警。

场景3 :磁盘故障自动报修 在互联网业务中大数据应用已经很广泛,Hadoop服务器数量占比很大,大量的数据计算导致磁盘故障率比较高,每天都有大量的故障磁盘需要更换维修。以前都是通过硬件监控或应用监控发现问题,然后由应用运维工程师登录服务器确认磁盘故障,尝试工具修复。如果修复失败摘掉磁盘,再发起故障报修申请。现在我们研发了磁盘故障自动维修系统,通过平台提供的API接口和监控系统联动,当监控系统发现磁盘故障后,通过回调接口启动磁盘工具进行软修复,修复失败后摘掉磁盘,并在服务管理平台进行记录,自动发起故障报修工单。服务器供应商收到维修工单通知后,根据所提供的机房、机柜、磁盘位置,进行集中更换。更换完成后进行通知,再由系统将磁盘分区格式化挂载,开始提供数据存储服务。

在运维平台建设的过程中,我们借鉴ITIL的思想,但没有完全照搬。ITIL能够帮助IT部门提高用户的满意度和运行效率,但它的实施难度比较大,不能满足互联网运维的敏捷要求。我们希望贴近DevOps的理念,管理和提供准确的运维数据,封装各种灵活的运维工具,让运维工作前置到产品研发阶段,帮助研发、测试人员快速完成产品的发布、测试、上线工作,让运维工具在产品的整个生命周期中联动起来。

平台化不等于自动化,我们的平台更多的是通过流程和标准的保证,提供运维数据的可视化,还算不上真正意义的自动化。我们希望研发和运维人员不再需要关心服务具体部署在哪台服务器、哪个IDC中,由调度系统负责服务运行状态的监控,对资源进行合理的调度、伸缩,对一定范围内的故障进行自动处理,实现真正的运维自动化。



本文转自 tianya1993 51CTO博客,原文链接:http://blog.51cto.com/dreamlinux/1859995,如需转载请自行联系原作者

目录
打赏
0
0
0
0
265
分享
相关文章
java乡镇卫生院、二甲医院云HIS运维平台源码
运营管理是综合管理系统的核心部分,由运营商和医疗机构管理人员使用,运营管理包括:机构管理、药品目录管理、用户管理、角色管理、字典管理、模板管理、参数设置、消息管理、售后服务、运营配置、外部系统11个子模块,实现机构、用户、角色管理、药品目录管理以及通用的字典管理;可以根据业务需要为各医疗机构定制病历模板和报表模板;可以对医疗机构收费外接设备进行参数设置,对业务进行配置;可以管理消息及售后信息等。
108 3
阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台
本文详细评测了阿里云操作系统控制台,作为一款集运维管理、智能助手和系统诊断于一体的工具,它为企业提供了高效管理云资源的解决方案。文章涵盖登录与服务开通、系统管理与实例纳管、组件管理与扩展功能、系统诊断与问题排查以及实时热点分析与性能优化等内容。通过实际操作展示,该平台显著提升了运维效率,并借助AI智能助手简化了复杂操作。建议进一步完善组件库并增强第三方兼容性,以满足更多高级运维需求。
143 2
构建深度可观测、可集成的网络智能运维平台
本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。
springboot医院信息化云HIS运维平台源码
1、门诊部分 挂号及预约、划价及收费、门诊处方及病历、医生排班... 2、住院部分 入院及出院登记、住院收费、住院清单、出院结算、住院医生工作站、住院护士工作站... 3、电子病历 医嘱管理、护嘱管理、电子病历、护理病历、病历质控...
123 0
一款现代化、高颜值的一站式智能运维管理平台
orion-ops-pro —— 一款现代化、高颜值的一站式智能运维管理平台,集资产管理、资产授权、批量执行、计划任务、WebShell、WebSftp、角色管理、系统管理等功能于一体,致力于简化运维团队的治理工作。
138 1
一款现代化、高颜值的一站式智能运维管理平台
构建一体化运维平台的八大功能
【6月更文挑战第6天】构建一体化运维平台的关键8个基本功能。
属于Basis运维的、在Linux平台上运行的大模型测评 OS Copilot智能助手测评
OS Copilot是阿里云为Linux打造的智能操作系统助手,基于大模型,助用户进行自然语言问答、命令执行和系统运维。它简化了Linux操作,适合新手和运维人员。测评者作为IT架构师,发现OS Copilot使非技术背景人员也能操作Linux,接入命令可在官方文档找到。测试显示,通过"co"命令可与OS Copilot交互,实现生产任务融合。该工具提高了工作效率,尤其是对于遗忘具体命令时,非常有帮助。文档清晰,适合生产环境使用,值得进一步探索。
187 0
运维一体化平台的能力要素
【6月更文挑战第7天】一体化运维平台的重要性,旨在建立覆盖运维全生命周期的统一平台,提升效率,保障业务连续性,实现数字化运维管理。
【阿里云云原生专栏】自动化运维的艺术:阿里云云原生平台的自动化运维工具集
【5月更文挑战第28天】阿里云云原生平台提供全面的自动化运维工具,涵盖监控告警、资源管理、部署更新、故障自愈、安全管理和数据备份等方面,简化运维工作,增强系统稳定性。通过智能工具集,运维人员能专注于业务优化,实现高效运维,为企业数字化转型提供有力支持。
297 3
下一篇
oss创建bucket
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等