2022云栖精选—SYSOM在系统可靠性与安全上实践

简介: 魏东统信软件高级系统研发工程师

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

一、系统可靠性

image.png

SRE是判断系统是否可靠、可用、有效重要标准,它包括:

  • 服务水平协议SLA:测量指标应与商业目标密切相关。
  • 服务水平目标SLD:一段时间、区间内的目标。
  • 服务水平指标SLI:衡量服务使用情况量化指标。

 

image.png

稳定性99.99% 99.999% 在大部分情况下对用户体验差异不大,但每增加一个9,会显著增加成本

基于时间的可用性=可用时间/总时间,但该指标通常意义不大。基于成功率的可靠性=成功请求数/总请求数。选择何种可靠性级别主要依赖于用户风险承受能力,在创新和可靠性之间找到恰当的平衡。

image.png

度量建模首先需要指标进行标准化,比如聚合间隔、聚合区域、测量频率、包括哪些请求、如何获取数据以及数据访问延迟。进行度量选择时,应关注用户关心的内容,而不是能够衡量的内容。关注标准化指标时,需关注SLI分布而不是平均值。

image.png

以上图为例,紫色区域整体较为稳定,状态较好;而蓝色区域毛刺突出,意味着系统在某一个时间点资源占用出现问题

image.png

事件处理中,需要在事件发生前做异常演练趋势分析告警等,在事件发生后及时呼叫相关工程师做根因分析,现场补救,进行错误修复。然后将补救经验沉淀到知识库,后续用于自动化修复。

image.png

不同业务会有不一样的监控指标

image.png

上图展示了操作系统的可观测维度。

image.png

上图为操作系统 SLI ,可以查看响应耗时、最大吞吐、正常运行时间等。

image.png

对于SRE而言,监控也十分重要。监控可以分析长期趋势比如查看每日活动用户数据量增加减少数据库使用了多大的磁盘、何时需要做扩容也可以用来比较不同时间或实验组,比如不同组件查询速度比较、内存命中率比较、网站运行速度比较等

监控可以大幅提升运维效率,不再需要运维人员、用户手动登录检查系统状态。另外,它也可以用于临时性回顾分析,查看某个时间点具体发生了什么哪些指标出现了异常。

image.png

监控基本原则是症状与原因监控系统应该解决两个问题:什么了?为什么?

监控具有四个黄金信号,分别为延迟、流量错误,饱和度。监控的工作内容应尽量简单,最常捕获真实事件的规则应尽可能简单、可预测和可靠,很少使用的数据收集、聚合和警报配置应被移除,已收集但未在任何仪表板中公开或被任何警报使用的信号应删除,方能达到高效分析问题的目的

image.png

系统自动化能够解决一致性、一个平台、更快的维修与行动以及计划的问题,后续,我们也期待能够通过AI OPS实现智能识别、智能介入以及智能修复。

image.png

SYSOM致力于打造一个集主机管理、配置部署、监控报警、异常诊断、安全审计等一系列功能的自动化运维平台。目前我们对资源管理做了纳管监控,对配置管理做了安全包管理自动化,对权限管理做了权限细分审计拦截,也实现了主动诊断。

image.png

上图为SYSOM主机管理图,可以做主机的批量导入导出删除,也可以根据集群做分门别类的梳理,支持在线终端,运维人员带来了极大的方便,无需额外安装专门客户端软件,只一台电脑,登录SYSOM服务即可直接访问外部终端,达到运维目

image.png

上图为SYSOM 诊断中心,负责检查调度、内存、IO网络补丁 CPU 等,并针对问题进行告警。

image.png

image.png

上图为网络诊断图。

 

二、系统安全性

image.png

系统安全性包括静态应用程序安全检查动态应用程序安全检查以及软件生命周期保护。静态应用程序安全检查一般在开发阶段做源码扫描勘测判断哪些编码可能会出现漏洞动态应用程序一般对正在运行二进制开启端口渗透,查看是否存在漏洞。

image.png

软件生命周期维护分为部分

  • 基线:包含软件版本配置文件。告知用户安全的软件版本配置文件,即使出现高危漏洞也不会产生太大影响。
  • 漏洞库存储软件出现的漏洞以及出现漏洞的版本。
  • 修复对软件包进行升级或补丁

image.png

上图为SYSOM 安全中心,能够直观地为用户展示需要修复漏洞数量、高危漏洞数量、修复漏洞影响主机数量、今天修复的数量、累计修复的数量等。安全中心既能支持多个漏洞批量修复,也支持多个主机漏洞批量修复可以一次性将所有主机所有漏洞进行修复

image.png

不同漏洞数据库包含漏洞数据可能有缺失SYSOM安全中心支持第三方数据库接入,只需配置名称连接地址、请求方式等,即可将第三方漏洞数库数据导入到 SYSOM 安全中心,进行系统扫描。

image.png

上图为安全扫描结果展示


三、展望与挑战

image.png

当前,系统稳定性存在若干痛点。

首先事件现场的保留。故障事件发生之后,现场难以保留,分析时需要花费较大代价。因此,保留事件现场尤为重要。

其次,底躁问题监控时,监控指标会对系统带来一些负载,做巡检指标计算也会对系统带来负载,我们期望以尽可能低的底噪来达到更全面监控,也是将来需要解决的问题

最后,修复依据。做安全基线配置或问题修复时,大多依靠专家经验厂商经验。但每个厂商或每个专家各有自己的观点,我们需要将其形成一套标准化规范。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
CentOS 7迁移Anolis OS 7
龙蜥操作系统Anolis OS的体验。Anolis OS 7生态上和依赖管理上保持跟CentOS 7.x兼容,一键式迁移脚本centos2anolis.py。本文为您介绍如何通过AOMS迁移工具实现CentOS 7.x到Anolis OS 7的迁移。
相关文章
|
1月前
|
运维 自然语言处理 Cloud Native
云栖实录 | 智能运维年度重磅发布及大模型实践解读
阿里云大数据运维团队重磅发布云原生大规模集群场景的 GitOps 方案,该方案基于 OAM 云原生模型,促进研发与运维人员协作,同时兼顾变更的过程管理和终态管理,可实现变更的自动化、代码化、透明化。此外,阿里云大数据运维团队分享了大模型在大数据智能运维场景的应用实践,通过引入检索增强生成(RAG)方法和其他优化策略,大幅提高了在智能问答和智能诊断方面知识的关联性和检索精度,并基于多智能体框架建立高效的数据分析和决策支持系统。
|
2月前
|
运维 云栖大会
运维管理新品发布与最佳实践 | 2024云栖大会预告
运维管理新品发布与最佳实践 | 2024云栖大会
|
5月前
|
消息中间件 Cloud Native Java
AutoMQ 社区双周精选第十一期(2024.05.27~2024.06.12)
AutoMQ v1.0 追踪修复Apache Kafka 3.4.x多个BUG,提升CPU与GC性能。优化包括修复Raft线程异常、死锁及NPE问题,防止网络分区导致脑裂。Netty Chunk大小调整减少CPU使用,取消跨块分配策略以降低GC负担。此外,AutoBalancing的Reporter和Retriever现支持指定Listener Name进行安全配置。关注公众号获取更多社区更新,一起参与云原生消息中间件建设!
42 3
|
5月前
|
运维 Anolis
开始报名啦!智能可观测运维技术 MeetUp 议题硬核来袭
随着 Al、eBPF 等技术的不断发展,未来系统运维技术如何定义?
开始报名啦!智能可观测运维技术 MeetUp 议题硬核来袭
|
6月前
|
消息中间件 Cloud Native 对象存储
活动回顾 | AutoMQ 云原生创新论坛精彩回放
在12月16日的“AutoMQ云原生创新论坛”上,AutoMQ联合创始人CTO周新宇介绍了AutoMQ的新特性,强调云原生架构和未来规划。阿里云和亚马逊云的技术专家分享了OSS成本优化与EC2的Nitro系统。圆桌对话中,嘉宾讨论了上云与下云的挑战,聚焦成本、故障处理和弹性。论坛还发布了AutoMQ的新版产品特性,包括多云兼容、性能提升和RocketMQ的创新解决方案。活动提供了丰富的资源分享,并激发了现场热烈的技术交流。
65 2
|
6月前
|
消息中间件 Cloud Native 调度
AutoMQ 社区双周精选第十期
AutoMQ 发布1.0.5版,更改默认日志滚动为大小滚动,限制日志空间在5GiB内,增强大规模对象删除性能。AutoBalancing调度加速,使用攒批间隔策略执行Action,每批对单一节点操作不超过50,批次间间隔5秒。
38 0
|
11月前
|
存储 人工智能 云计算
See you in 深圳丨阿里云存储技术实战营报名启动,3大议题速览
本次活动邀请阿里云存储、达摩院、日志服务的专家进行技术宣讲与案例分享,帮助企业了解最新云计算以及AI技术的具体落地,为企业高质量发展以及业务出海提供有益借鉴。
72555 2
See you in 深圳丨阿里云存储技术实战营报名启动,3大议题速览
|
弹性计算 编解码 Cloud Native
利剑出鞘!10+专家齐聚,倚天实例迁移课程重磅上线!
阿里云弹性计算联合平头哥& 安谋科技(arm)等10余位技术专家、架构师、开发工程师等,共同发起【倚天实例迁移课程】,本次系列课程共计10节,共分为基础篇;架构迁移篇;性能优化篇三个篇章,从不同角度为用户带来更加丰富和专业的讲解。
利剑出鞘!10+专家齐聚,倚天实例迁移课程重磅上线!
|
人工智能 运维 监控
龙蜥白皮书精选:SysAK—大规模复杂场景的系统运维利器
SysAK 在功能集上会进行全方位覆盖,垂直打通整个应用的生命周期。
|
存储 Cloud Native NoSQL
2022云栖精选—云时代数据库应用最佳实践
李圣陶 阿里云数据库资深解决方案专家
2022云栖精选—云时代数据库应用最佳实践

热门文章

最新文章