ITIL4实践之运维自研系统(上篇)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 运用ITIL4实践,分析机会、风险、输入输出,探索自研运维平台。

一、前言

  • 机会
1. 构建系统化运维体系,淘汰随机的日常运维所引发的各种不确定性与资源浪费
2. 显著提升运维部在MES软件工程中的管理层级与驱动力


  • 风险
1. 前期投入大量时间进行设计论证
2. 设计方案或设计系统因满足对接等需求等缺陷,面临推倒重来的情况
3. 研发人员有效投入时间与可控产量的工时评估,每个阶段研发工时未能充分利用
4. 认知决定结果,来自领导层的持续认可与持续支持,影响到相应资源的获取与分配


  • 可用资源
1. 技术专家
2. 自建机房
3. 云资源
4. 供应商
5. 实施中心


  • 欠缺资源
1. 系统规范设计与整合经验
2. 前端研发
3. 后端研发


二、运维平台自研系统管理架构

  • 统一管理项目运维各项设施,分阶段按优先级落地实施。
1. 从基线出发,统计现有运维措施清单,包含并不限于文档、脚本、程序、人员
2. 综合评估实施的优先级,并始终保持简单易实现设计原则
3. 按优先级分配到对应实施阶段,确定具体任务得到必要的分解,投入必要时间与人员等资源促成落地
4. 分解具体系统平台实现涉及的任务与时间分配,包含并不限于概念文档、原型设计、Demo测试、开放性测试


  • 应用对象与范围约束
1. 应用对象:客户
    作为运维节点,内置到MES系统中,随交付一并实施,供日常运维操作使用。
2. 应用对象:运维部
    作为运维平台中心,全局管理客户的运维节点。


  • 项目运维生命周期中涉及的系统清单
名称 目标
备份管理系统 执行状态、文件状态
点检管理系统 执行状态
基础设施管理系统 软硬件续保状态、备件状态
演练管理系统 资源状态、定制模板镜像
代码管理系统 代码收集、版本变更
日志管理系统 增量变化状态、错误码收集
数据库管理系统 表结构状态、增量变化状态
配置中心系统 数据包、配置文件、激活服务
平台管理系统 系统工作状态、版本
前端交互系统 对接后端系统,进行内容展示当日、七日、十四日历史曲线展示
K8S管理系统 yml文件规划、资源编排、image版本管理
数据管理系统 各项系统数据收集、数据清洗、数据挖掘

三、人员编制

  • 职责关系
称谓 分工 工具
规划设计 系统架构设计、功能规划、设计方案文档输出 Excel、PPT
前端开发 UI原型设计、页面开发、交互设计、用户文档输出 Vue.js
后端开发 系统逻辑实现、框架结构、接口文档输出 Node.js、python
QA测试 功能测试、报告输出 Excel、Word
用户 第三方使用体验 浏览器

四、流程

  • 设计方案
1. 目标功能定义
2. 功能整合与裁剪
3. 设计重构
4. 验收标准与系统交付


  • 系统逻辑
1. 逻辑接口定义
2. 逻辑功能实现
3. 数据保存
4. 后端开发优化与bug修复


  • 页面设计
1. UI原型设计
2. 页面访问功能实现
3. 页面功能关联后端接口
4. 前端开发优化与bug修复


  • 功能验收
1. 接口测试
2. 功能测试
3. 故障测试
4. 汇总报告


五、功能模拟

  • 功能组件
名称 功能 特点
Ansible 批量管理、命令执行 被控端只需支持ssh,无需安装agent
Filebeat 日志收集 轻量级日志收集器,低系统消耗
ELK 日志综合 支持数据过滤,定制展示格式
Promethues 监控 数据查询 DSL 语言、指标灵活定义
Zabbix 监控 第三方模块成熟
Vue.js 用户界面 快捷开发,支持库较多,开发难度低
Node.js javascript运行环境 响应静态动态请求,管理难度低
Python 衔接各系统接口、接口测试 兼容性强、开发难度低
DB 数据存储 按需选择数据库类型,易于管理优先

后文

从元数据开始定制,轻巧易用的运维服务平台。

探索从未停止...


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
2天前
|
运维 监控
构建高效运维体系:从理论到实践
在当今快速发展的信息化时代,高效的运维体系是保障企业信息系统稳定运行的关键。本文旨在探讨如何构建一个高效、可靠的运维体系,通过分析当前运维面临的挑战,提出相应的解决策略,并结合实际案例,展示这些策略的实施效果。文章首先介绍了高效运维的重要性,接着分析了运维过程中常见的问题,然后详细阐述了构建高效运维体系的策略和步骤,最后通过一个实际案例来验证这些策略的有效性。
|
2天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
5天前
|
缓存 运维 监控
【运维必备知识】Linux系统平均负载与top、uptime命令详解
系统平均负载是衡量Linux服务器性能的关键指标之一。通过使用 `top`和 `uptime`命令,可以实时监控系统的负载情况,帮助运维人员及时发现并解决潜在问题。理解这些工具的输出和意义是确保系统稳定运行的基础。希望本文对Linux系统平均负载及相关命令的详细解析能帮助您更好地进行系统运维和性能优化。
19 3
|
10天前
|
人工智能 运维 监控
构建高效运维体系:理论与实践的深度融合####
本文旨在探讨高效IT运维体系的构建策略,通过理论框架与实际案例并重的方式,深入剖析了现代企业面临的运维挑战。文章开篇概述了当前运维领域的新趋势,包括自动化、智能化及DevOps文化的兴起,随后详细阐述了如何将这些先进理念融入日常运维管理中,形成一套既灵活又稳定的运维机制。特别地,文中强调了数据驱动决策的重要性,以及在快速迭代的技术环境中保持持续学习与适应的必要性。最终,通过对比分析几个典型企业的运维转型实例,提炼出可复制的成功模式,为读者提供具有实操性的指导建议。 ####
|
12天前
|
机器学习/深度学习 人工智能 运维
智能运维:AIOps在大型系统运维中的实践与挑战
【10月更文挑战第28天】随着云计算、大数据和人工智能的发展,AIOps(人工智能运维)应运而生,旨在通过算法和机器学习提高运维效率和质量。本文探讨了AIOps在大型系统运维中的实践与挑战,包括数据质量、模型选择和团队协作等方面,并通过一个异常检测案例展示了其应用。尽管面临挑战,AIOps仍有望成为未来运维的重要方向。
40 5
|
9天前
|
运维 负载均衡 Ubuntu
自动化运维的利器:Ansible入门与实践
【10月更文挑战第31天】在当今快速发展的信息技术时代,高效的运维管理成为企业稳定运行的关键。本文将引导读者了解自动化运维工具Ansible的基础概念、安装步骤、基本使用,以及如何通过实际案例掌握其核心功能,从而提升工作效率和系统稳定性。
|
10天前
|
运维 资源调度 监控
提升运维效率的关键技术与实践
在当今快速发展的信息技术时代,运维工作面临着前所未有的挑战和机遇。本文旨在探讨如何通过采用先进的技术和实施最佳实践来提高IT运维的效率和效果。我们将深入分析自动化工具、监控策略、灾难恢复计划以及持续集成/持续部署(CI/CD)等关键领域,展示它们如何协同工作以优化运维流程。此外,文章还将提供一些实际案例研究,帮助读者更好地理解这些概念的应用。无论是对于初创公司还是大型企业,掌握这些技术都将是提升竞争力的关键。
|
13天前
|
运维 监控 中间件
数据中心运维监控系统产品价值与优势
华汇数据运维监控系统面向IT基础架构及IT支撑平台的监控和运维管理,包含监测、分析、展现和告警。监控范围涵盖了网络设备、主机系统、数据库、中间件和应用软件等。
38 4
|
19天前
|
运维 应用服务中间件 持续交付
自动化运维的利器:Ansible入门与实践
【10月更文挑战第21天】在现代IT基础设施的管理中,自动化运维已成为提升效率、降低错误率的关键。Ansible,作为一种简单而强大的自动化工具,正被广泛应用于配置管理、应用部署和任务自动化等领域。本文将引导你了解Ansible的基本概念,通过实际案例展示如何利用Ansible简化日常运维工作,并探讨其在现代IT运维中的应用价值。无论你是新手还是有经验的系统管理员,这篇文章都将为你开启Ansible的高效之旅提供指导。
|
25天前
|
运维 自然语言处理 开发者
作为一名运维人员,使用通义灵码个人版处理日常工作中的代码相关任务,极大地提升了我的工作效率。以下是我使用通义灵码的具体实践场景、效果和心得,以及相应的截图。
作为一名运维人员,我使用通义灵码处理日常工作中的代码任务,效率提升了30%。通义灵码帮助我快速理解复杂代码、生成准确的代码注释,并能从自然语言生成代码示例,大幅减少了代码编写和理解的时间。
54 3