运维联盟 SOMA 评测系统正式发布,让你的运维工具跑分更丝滑

简介: 通过对特定的业务系统进行故障注入,将不同的运维工具放在一起进行评估和评测。

引言

随着 AI 和云原生技术的发展,系统越来越复杂,调用层级越来越多。国内外对可观测和 AIOps 运维方向的探索源源不断,涌现出了很多优秀的工具,但也有不少工具存在低质、重复、难用、兼容性差等特点。为了让运维行业呈现百花齐放、让优秀的工具脱颖而出,龙蜥社区系统运维联盟其中一项重要的工作放入就是通过对特定的业务系统进行故障注入,将不同的运维工具放在一起进行评估和评测,通过打分和排行榜的机制,来一次同场竞技!

SOMA 简介

龙蜥社区系统运维联盟(System Operation & Maintenance Alliance,简称 SOMA)是由龙蜥社区联合平台厂商、运维厂商、高校及科研院所、事业单位和广大行业用户等发起并成立,以推动系统运维技术进步、促进产学研合作为目的的组织。运维联盟通过建立一套故障注入平台和运维产品力评测系统,为平台厂商、运维厂商和广大客户建立起沟通的桥梁和纽带,让用户对运维产品拼图有全局认识。

SOMA 开源地址:https://gitee.com/anolis/soma

系统划分

运维联盟所做的运维工具评测,主要包含四个系统:案例注入、被测系统、评测系统、报告和评分系统。通过注入不同类型的案例到被测系统(被测系统采用标准的微服务系统),借助标准化接口把故障预期给评测系统,评测系统到测试点(如运维工具透出的标准接口,或者第三方的标准观测系统)采集现场指标(性能开销指标等)进行评测。综合各类型(功能、性能等)评测结果,生成对应产品的评测分数及测试报告。后面将会对这些评分结果进行排行,发布产业报告,进行一些商业化动作。

支持计划

平台评测全景支持计划如下,本次发布的版本,仅支持工具性能评测及客户体验测评。

客观测评项

工具性能测评

资源评测

当前支持

工具功能测评

告警评测

待支持

故障发现能力评测

待支持

根因定位能力

待支持

主观测评

客户体验测评

待支持

SOMA评测系统平台介绍

功能详细介绍

注册与登录

点击登录 SOMA 评测系统平台首页,如果没有账号/想使用自建账户,可以点击注册,选择通过验证码注册账号,注册成功以后即可实现登录操作。目前,邮箱以及手机号码登录尚未接入平台,期待后续接入。

SOMA 评测系统平台链接:https://soma.openanolis.cn/exercise

注册后账号默认为普通账号,且用户名即成为后续展示工具来源的用户名,如有其他需要请联系管理员。

下面带大家以管理员视角来介绍整个平台使用。

控制台

当您登陆,进入系统后可以看到:

1. 运维工具综合排行榜。

2. 运维工具主/客观评分排名。

3. 运维工具主/客观评分变化趋势。

4. 目前压力系统的响应时间/每秒访问次数/响应分位数。

运维工具管理

在开始使用前,首先需要找到运维工具管理,点击添加工具添加您的运维工具。

在弹出页输入您的运维工具名称,以及一键安装/卸载/启动/停止脚本,后续评测需要将会通过这个脚本来完成打分功能。

1. 运维工具名称会和实际运行在后台的进程名做模糊匹配,所以请注意填入的运维工具名需要包含在后台进程名中

2. 现一键安装/卸载/启动/停止脚本填写后,请联系管理员进行审核。管理员完成审核添加完成后,会启用对该工具评分的功能。

3.添加完成以后可以看到您添加的运维工具,而管理员可以查看到所有运维工具。


打分模型管理

如果您在独立部署该平台,并且是管理员,可以在左侧选项栏看到打分模型管理,点击打分模型管理,按照说明操作各个按钮即可完成自动化数据收集/模型训练工作。

您在自己的机器上采集到的数据维度与我们机器上的配置若有不同,这时需要按照开发手册来修改相应位置的代码从而满足您的需求。

运维工具评分

点击左侧运维工具评分,评分方式分为主观评分和客观评分

1)主观评分

进入主观评分页面后,点击添加评分,在下拉框中选择您的运维工具即可进行评分操作,您只能看到自己的运维工具以及打分信息,管理员可以看到所有人的运维工具以及打分信息,具体可从 5 个纬度进行评分:

1. 易用性(满分 20 分)  

2. 功能性  (满分 20 分)

3. 定制化  (满分 20 分)

4. 支持程度  (满分 20 分)

5. 附加评分(满分 20 分)

2)客观评分

同样的方式,您也可以完成客观评分工作,客观评分由平台自动采集过去 30s 内的各项资源占用平均值并自动完成评分,用户无法自己手动打分,具体可从 5 个纬度进行评分:

CPUScore:衡量运维工具开启后,对系统调度子系统的影响,满分 20 分,得分越高,影响越小。

MemScore:衡量运维工具开启后,对系统内存资源的影响,满分 20 分,得分越高,影响越小。

DiskScore:衡量运维工具开启后,对系统磁盘占用的影响,满分 20 分,得分越高,影响越小。

DiskIOScore:衡量运维工具开启后,对系统 IO 子系统的影响,满分 20 分,得分越高,影响越小。

NetScore:衡量运维工具开启后,对系统网络子系统的影响,满分 20 分,得分越高,影响越小。

结果分析

结果分析分为主观评分结果分析与客观评分结果分析。

1)主观评分结果分析

在主观结果分析中,您可以查看每个工具的所有结果分析情况,点击对应工具右侧的操作列下的图标,即可显示分析报告:

SysAk 工具为例,首先您将看到用户主观综合评价得分,这是根据历史评分情况进行计算后得到的综合评分:

接下来是历史主观评分分值情况:

以及查看各评分项的历史得分比重情况:

您还可以查看与其他运维工具的得分成绩比较情况:

2)客观评分结果分析

客观评分结果分析内容与主观评分内容相似,这里就不额外展开。

实时性能数据

点击实时性能数据您可以查看系统/运维工具的各项实时性能数据。

压力测试

此部分为基于train-ticket 购票系统(复旦大学 SELab 开源业务模拟系统)和 Chaos Mesh 实现的故障注入系统(由联盟成员云观秋毫团队开发)已经在龙蜥社区开源(链接见下),当前提供了网络、存储、K8s 类的故障案例,希望大家一起来贡献案例。点击压力测试,您可以按照手动按照既定的 case 注入故障/压力,并且实时查看故障状态,但请务必在压力测试后关闭压测。

故障注入系统链接:https://gitee.com/anolis/soma/tree/master/chaos

定时任务管理

用于自动化完成定期自动化评分/定期报告自动生成等功能,使用此功能需要您手动编写定时任务 handler,具体方式请咨询您的管理员。

历史结果查看

包含了每次客观评分时的真实环境数据,您可以点击查看具体数据。

智能助手

SOMA 智能助手是 SOMA 平台的聊天机器人,目前可以根据提问的问题场景,推荐知识库中的相应运维工具。

当前,智能助手支持提交的文档类型有 doc/docx/pdf 的文档和 xlsx/xls 的 excel 问答表格。为了增强 LLM 的上下文,实现更精准有效的推荐,也希望越来越多对此有兴趣的个人和企业,一起贡献相关的知识库。

在 2024 系统运维联盟年终会议上,各位委员针对 SOMA 评测系统的发布给出了建设性意见,详情点击下方图片查看。

相关文章
|
24天前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
1月前
|
传感器 人工智能 运维
AR智慧运维系统介绍
阿法龙XR云平台是一款面向工业领域的增强现实(AR)智能化平台,助力企业实现数字化转型。平台集成智能巡检工作流、远程协助、AI视频验收、人脸识别等功能模块,支持AR眼镜与移动终端,提供虚实融合的运维体验。具备高度定制化能力,适配多种工业场景,提升运维效率与智能化水平。
|
2月前
|
数据采集 运维 监控
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
119 0
|
3月前
|
运维 Prometheus 监控
别再盲选了!开源运维工具选型这事儿,咱得说人话
别再盲选了!开源运维工具选型这事儿,咱得说人话
149 7
|
3月前
|
人工智能 运维 监控
聚焦“AI+运维”深度融合,龙蜥系统运维联盟 MeetUp 圆满结束
现场 40 多位开发者进行了深入的技术交流,探索 AI 与运维深度融合的未来路径。
|
4月前
|
人工智能 运维 安全
基于合合信息开源智能终端工具—Chaterm的实战指南【当运维遇上AI,一场效率革命正在发生】
在云计算和多平台运维日益复杂的今天,传统命令行工具正面临前所未有的挑战。工程师不仅要记忆成百上千条操作命令,还需在不同平台之间切换终端、脚本、权限和语法,操作效率与安全性常常难以兼顾。尤其在多云环境、远程办公、跨部门协作频繁的背景下,这些“低效、碎片化、易出错”的传统运维方式,已经严重阻碍了 IT 团队的创新能力和响应速度。 而就在这时,一款由合合信息推出的新型智能终端工具——Chaterm,正在悄然颠覆这一现状。它不仅是一款跨平台终端工具,更是业内率先引入 AI Agent 能力 的“会思考”的云资源管理助手。
|
4月前
|
人工智能 运维 Prometheus
别等系统“炸了”才慌!聊聊AI搞运维故障检测的那些真香时刻
别等系统“炸了”才慌!聊聊AI搞运维故障检测的那些真香时刻
168 0
|
2月前
|
人工智能 运维 Prometheus
运维还要天天盯人值班?现代化运维就该让系统自己跑!
运维还要天天盯人值班?现代化运维就该让系统自己跑!
93 4
|
3月前
|
运维 Prometheus 监控
系统崩了怪运维?别闹了,你该问问有没有自动化!
系统崩了怪运维?别闹了,你该问问有没有自动化!
125 9
|
3月前
|
敏捷开发 运维 数据可视化
DevOps看板工具中的协作功能:如何打破开发、测试与运维之间的沟通壁垒
在DevOps实践中,看板工具通过可视化任务管理和自动化流程,提升开发与运维团队的协作效率。它支持敏捷开发、持续交付,助力团队高效应对需求变化,实现跨职能协作与流程优化。