统信软件高级系统研发工程师:sysOM 在系统可靠性与安全上实践

简介: 统信软件高级系统研发工程师 魏东

640 (1).png

一、系统可靠性

1.png

SRE是判断系统是否可靠、可用、有效重要标准,它包括:

  • 服务水平指标SLI:衡量服务使用情况量化指标。 比如IO读写速率、网络延迟。通常量化指标会转换为比率、平均值或百分比。
  • 服务水平目标SLO:一段时间、区间内的目标。 SLO的表达式通常为: SLI <= target 或 lower bound ≤ SLI ≤ upper bound。比如SLO可以为每个请求的平均延迟<=10ms。
  • 服务水平协议SLA:测量指标应与商业目标密切相关。    

2.png

稳定性99.99% 和 99.999% 在大部分情况下对用户体验差异不大,但每增加一个9,会显著增加成本。


基于时间的可用性=可用时间/总时间,但该指标通常意义不大。比如某订单系统在7天内有1小时不可用,其影响将是致命的。


基于成功率的可靠性=成功请求数/总请求数。选择何种可靠性级别主要依赖于用户风险承受能力,在创新和可靠性之间找到恰当的平衡。


3.png

度量建模首先需要对指标进行标准化,比如聚合间隔、聚合区域、测量频率、包括哪些请求、如何获取数据以及数据访问延迟。进行度量选择时,应关注用户关心的内容,而不是能够衡量的内容。关注标准化指标时,需关注SLI分布而不是平均值。

4.png

以上图为例,紫色区域整体较为稳定,状态较好;而蓝色区域毛刺突出,意味着系统在某一个时间点资源占用出现问题。

5.png

在事件处理中,需要在事件发生前做异常演练、趋势分析、告警等,在事件发生后及时呼叫相关工程师做根因分析,现场补救,进行错误修复。然后将补救经验沉淀到知识库,后续用于自动化修复。

6.png

不同业务会有不一样的监控指标,不同的商业目标也会有不同的SLO。

7.png

上图展示了操作系统的可观测维度。

8.png

这里我们列了一个矩阵,Y轴是可靠性通用度量方法,X轴是系统的可观维度,通过X和Y轴的组合,可以生成操作系统的SLI度量项。

9.png

对于SRE而言,监控也十分重要。监控可以分析长期趋势,比如查看每日活动用户数据量、增加或减少、数据库使用了多大的磁盘、何时需要做扩容;也可以用来比较不同时间或实验组,比如不同组件查询速度比较、内存命中率比较、网站运行速度比较等。


监控可以大幅提升运维效率,不再需要运维人员、用户手动登录检查系统状态。另外,它也可以用于临时性的回顾分析,查看某个时间点具体发生了什么、哪些指标出现了异常。

10.png

监控的基本原则是症状与原因,监控系统应该解决两个问题:什么坏了?为什么?


监控具有四个黄金信号,分别为延迟、流量、错误,饱和度。监控的工作内容应尽量简单,最常捕获真实事件的规则应尽可能简单、可预测和可靠,很少使用的数据收集、聚合和警报配置应被移除,已收集但未在任何仪表板中公开或被任何警报使用的信号应删除,方能达到高效分析问题的目的。

11.png

系统自动化能够解决一致性、一个平台、更快的维修与行动以及计划的问题,后续,我们也期待能够通过AI OPS实现智能识别、智能介入以及智能修复。

12.png

sysOM致力于打造一个集主机管理、配置部署、监控报警、异常诊断、安全审计等一系列功能的自动化运维平台。目前我们对资源管理做了纳管、监控,对配置管理做了安全、包管理、自动化,对权限管理做了权限细分、审计拦截,也实现了主动诊断。

13.png

上图为SYSOM的主机管理图,可以做主机的批量导入、导出、删除,也可以根据集群做分门别类的梳理,支持在线终端,为运维人员带来了极大的方便,无需额外安装专门的客户端软件,只需一台电脑,登录SYSOM服务即可直接访问外部终端,达到运维目的。

14.png

上图为SYSOM 诊断中心,负责检查调度、内存、IO网络、补丁 CPU 等,并针对问题进行告警。

15.png

16.png

上图为网络诊断图。

二、系统安全性

17.png

系统安全性包括静态应用程序安全检查、动态应用程序安全检查以及软件生命周期保护。静态应用程序安全检查一般为在开发阶段做源码扫描勘测,判断哪些编码可能会出现漏洞;动态应用程序一般对正在运行的二进制开启端口渗透,查看是否存在漏洞。

18.png

软件生命周期维护分为三个部分:

  • 基线:包含软件版本和配置文件。告知用户安全的软件版本和配置文件,即使出现高危漏洞也不会产生太大影响。
  • 漏洞库:存储软件出现的漏洞以及出现漏洞的版本。
  • 修复:对软件包进行升级或补丁。


19.png

上图为SYSOM 安全中心,能够直观地为用户展示需要修复的漏洞数量、高危漏洞数量、修复漏洞影响的主机数量、今天修复的数量、累计修复的数量等。安全中心既能支持多个漏洞批量修复,也支持多个主机漏洞批量修复,可以一次性将所有主机的所有漏洞进行修复。

20.png

不同漏洞数据库包含的漏洞数据可能有缺失,SYSOM安全中心支持第三方数据库接入,只需配置名称、连接地址、请求方式等,即可将第三方漏洞数库数据导入到 SYSOM 安全中心,进行系统扫描。

21.png

上图为安全扫描结果展示。

三、展望与挑战

22.png

当前,系统稳定性存在若干痛点。


首先,事件现场的保留。故障事件发生之后,现场难以保留,分析时需要花费较大代价。因此,保留事件现场尤为重要。


其次,底躁问题。监控时,监控指标会对系统带来一些负载,做巡检和指标计算也会对系统带来负载,我们期望以尽可能低的底噪来达到更全面的监控,也是将来需要解决的问题。


最后,修复依据。做安全基线配置或问题修复时,大多依靠专家经验和厂商经验。但是每个厂商或每个专家各有自己的观点,我们需要将其形成一套标准化规范。  


关于龙蜥峰会 eBPF & Linux 稳定性专场课件获取方式:

【PPT 课件获取】:关注微信公众号(OpenAnolis),回复“龙蜥课件” 即可获取。有任何疑问请随时咨询龙蜥助手—小龙(微信:openanolis_assis)。


【视频回放】:视频回放可前往龙蜥官网https://openanolis.cn/video 查看。


640 (2).png

链接

相关文章
|
3月前
|
人工智能 自然语言处理 数据可视化
Google Code Wiki:GitHub代码库秒变可交互文档
Google Code Wiki 利用 AI 为代码库构建动态知识层,通过 Tree-sitter 解析结构、生成知识图谱,并结合混合检索策略实现精准问答。支持自动文档生成、可视化图表与自然语言交互,让代码可读、可问、可演进,大幅提升理解效率。
496 6
Google Code Wiki:GitHub代码库秒变可交互文档
|
XML SQL Web App开发
用友 GRP-U8 Proxy XXE-SQL注入漏洞
用友 GRP-U8 Proxy XXE-SQL注入漏洞,攻击者可利用该漏洞获取数据库敏感信息,具体复现操作请看下文。
779 1
|
2月前
|
人工智能 API 开发者
重磅官宣!阿里云百炼Coding Plan四大模型齐上线,7.9元就能用顶配
阿里云百炼Coding Plan上线Qwen3.5、GLM-5、MiniMax M2.5、Kimi K2.5四大顶尖开源模型,支持Qwen Code等工具自由切换。Lite套餐首月7.9元(1.8万次请求),Pro仅39.9元(9万次),大幅降低开发成本。
|
6月前
|
JSON API 数据格式
小红书API接口文档:笔记详情数据开发手册
小红书笔记详情API可获取指定笔记的标题、正文、互动数据及多媒体资源,支持字段筛选与评论加载。通过note_id和access_token发起GET/POST请求,配合签名验证,广泛用于内容分析与营销优化。
1259 3
|
1月前
|
人工智能 JavaScript 测试技术
实战复盘:我是如何把 Claude Code 的月账单从 $800 砍到 $150 的
用 Claude Code 做开发确实爽,但月底看到账单的时候就不爽了。 我手上有一个 5 万行左右的 TypeScript 项目,刚开始放开了用,一个月下来直接烧掉 $800。这个数字让我不得不坐下来认真研究一下——钱到底花在哪了?有没有办法在不影响开发效率的前提下,把成本打下来? 经过一个月的摸索和调优,最终月费稳定在 $150 左右,降幅达到 81%。这篇文章就是这段经历的完整总结。 很多人以为 AI 编程助手的开销主要在"它给你写的代码"上,其实不然。我拿自己的项目做了统计,结果挺意外的:
1964 5
|
1月前
|
人工智能 API 网络安全
新手必看!阿里云部署OpenClaw超简单喂饭级图文步骤+Discord集成+避坑攻略
在2026年全球社群协作与AI自动化深度融合的趋势下,OpenClaw(原Clawdbot,曾用名Moltbot)凭借开源特性、灵活的插件生态与强大的任务执行能力,成为全球社群运营者、游戏玩家与技术爱好者的核心效率工具。这款开源AI智能体框架,截至2026年3月,在GitHub平台星标数量已突破21万,Fork数超4万,支持通过自然语言完成文件管理、信息检索、流程自动化、社群管理等多样化任务。而Discord作为全球月活超2.5亿的社群与游戏通讯平台,覆盖全球190+国家,具备频道分类、角色权限、机器人集成、多端同步等核心优势,是全球社群运营、游戏组队、技术交流的首选载体。
344 1
|
安全 Linux 测试技术
Intel Linux 内核测试套件-LKVS介绍 | 龙蜥大讲堂104期
《Intel Linux内核测试套件-LKVS介绍》(龙蜥大讲堂104期)主要介绍了LKVS的定义、使用方法、测试范围、典型案例及其优势。LKVS是轻量级、低耦合且高代码覆盖率的测试工具,涵盖20多个硬件和内核属性,已开源并集成到多个社区CICD系统中。课程详细讲解了如何使用LKVS进行CPU、电源管理和安全特性(如TDX、CET)的测试,并展示了其在实际应用中的价值。
489 4
|
监控 安全 Java
JVM内存问题之排查Direct Memory泄漏有哪些常用方法
JVM内存问题之排查Direct Memory泄漏有哪些常用方法
889 2
转载 - gcc/ld 动态连接库和静态连接库使用方法
本文介绍了如何在GCC中实现部分程序静态链接、部分动态链接。使用`-Wl`标志传递链接器参数,`-Bstatic`强制链接静态库,`-Bdynamic`强制链接动态库。
|
安全 C++
【C++ 泛型编程 进阶篇】:用std::integral_constant和std::is_*系列深入理解模板元编程(一)
【C++ 泛型编程 进阶篇】:用std::integral_constant和std::is_*系列深入理解模板元编程
918 1

热门文章

最新文章