一、前言
- 机会
1. 构建系统化运维体系,淘汰随机的日常运维所引发的各种不确定性与资源浪费 2. 显著提升运维部在MES软件工程中的管理层级与驱动力
- 风险
1. 前期投入大量时间进行设计论证 2. 设计方案或设计系统因满足对接等需求等缺陷,面临推倒重来的情况 3. 研发人员有效投入时间与可控产量的工时评估,每个阶段研发工时未能充分利用 4. 认知决定结果,来自领导层的持续认可与持续支持,影响到相应资源的获取与分配
- 可用资源
1. 技术专家 2. 自建机房 3. 云资源 4. 供应商 5. 实施中心
- 欠缺资源
1. 系统规范设计与整合经验 2. 前端研发 3. 后端研发
二、运维平台自研系统管理架构
- 统一管理项目运维各项设施,分阶段按优先级落地实施。
1. 从基线出发,统计现有运维措施清单,包含并不限于文档、脚本、程序、人员 2. 综合评估实施的优先级,并始终保持简单易实现设计原则 3. 按优先级分配到对应实施阶段,确定具体任务得到必要的分解,投入必要时间与人员等资源促成落地 4. 分解具体系统平台实现涉及的任务与时间分配,包含并不限于概念文档、原型设计、Demo测试、开放性测试
- 应用对象与范围约束
1. 应用对象:客户 作为运维节点,内置到MES系统中,随交付一并实施,供日常运维操作使用。 2. 应用对象:运维部 作为运维平台中心,全局管理客户的运维节点。
- 项目运维生命周期中涉及的系统清单
名称 | 目标 |
备份管理系统 | 执行状态、文件状态 |
点检管理系统 | 执行状态 |
基础设施管理系统 | 软硬件续保状态、备件状态 |
演练管理系统 | 资源状态、定制模板镜像 |
代码管理系统 | 代码收集、版本变更 |
日志管理系统 | 增量变化状态、错误码收集 |
数据库管理系统 | 表结构状态、增量变化状态 |
配置中心系统 | 数据包、配置文件、激活服务 |
平台管理系统 | 系统工作状态、版本 |
前端交互系统 | 对接后端系统,进行内容展示当日、七日、十四日历史曲线展示 |
K8S管理系统 | yml文件规划、资源编排、image版本管理 |
数据管理系统 | 各项系统数据收集、数据清洗、数据挖掘 |
三、人员编制
- 职责关系
称谓 | 分工 | 工具 |
规划设计 | 系统架构设计、功能规划、设计方案文档输出 | Excel、PPT |
前端开发 | UI原型设计、页面开发、交互设计、用户文档输出 | Vue.js |
后端开发 | 系统逻辑实现、框架结构、接口文档输出 | Node.js、python |
QA测试 | 功能测试、报告输出 | Excel、Word |
用户 | 第三方使用体验 | 浏览器 |
四、流程
- 设计方案
1. 目标功能定义 2. 功能整合与裁剪 3. 设计重构 4. 验收标准与系统交付
- 系统逻辑
1. 逻辑接口定义 2. 逻辑功能实现 3. 数据保存 4. 后端开发优化与bug修复
- 页面设计
1. UI原型设计 2. 页面访问功能实现 3. 页面功能关联后端接口 4. 前端开发优化与bug修复
- 功能验收
1. 接口测试 2. 功能测试 3. 故障测试 4. 汇总报告
五、功能模拟
- 功能组件
名称 | 功能 | 特点 |
Ansible | 批量管理、命令执行 | 被控端只需支持ssh,无需安装agent |
Filebeat | 日志收集 | 轻量级日志收集器,低系统消耗 |
ELK | 日志综合 | 支持数据过滤,定制展示格式 |
Promethues | 监控 | 数据查询 DSL 语言、指标灵活定义 |
Zabbix | 监控 | 第三方模块成熟 |
Vue.js | 用户界面 | 快捷开发,支持库较多,开发难度低 |
Node.js | javascript运行环境 | 响应静态动态请求,管理难度低 |
Python | 衔接各系统接口、接口测试 | 兼容性强、开发难度低 |
DB | 数据存储 | 按需选择数据库类型,易于管理优先 |
后文
从元数据开始定制,轻巧易用的运维服务平台。
探索从未停止...