SREWorks云原生数智运维工程实践-SREWorks 介绍篇-基于Elasticsearch 生长的SREWorks 数据化运维体系(下)

简介: SREWorks云原生数智运维工程实践-SREWorks 介绍篇-基于Elasticsearch 生长的SREWorks 数据化运维体系

三、 基于SREWorks数据化运维实践

 

1. 稳定性建设

 

服务链路全观测建设

 

由于IT系统日益增加的复杂度、大量云原生技术的采用,使得服务快速排障变得越来越难。而指标、日志和追踪三大可观测性支柱,可以实现服务的白盒监控能力。

 

image.png

 

SREWorks数据平台集成metricbeat、filebeat、skywalking等数据采集agent和自研数据采集场景作业,提供全托管一站式可观测数据采集能力,可以直接获取运行系统的指标、日志和调用链,协助问题的排查和诊断,缩短故障恢复时长TTR

 

image.png

 

健康管理服务建设

 

为了帮助用户更好的感知系统运行状态,实现系统的监控管理,结合阿里Emon团队的智能检测服务和自研作业场景服务,构筑健康管理服务。包括事件采集管理、风险巡检、指标告警检测、异常诊断场景作业,帮助用户识别风险、分析告警、进行异常诊断和自愈以及故障管理。

 

建设规范化健康管理平台,能够降低或者消除系统隐患,尽最大可能将潜在故障扼杀在萌芽状态。一旦故障发生及时通知关联人员,进一步提升应对效率,确保行动的有效性。

 

屏幕快照 2023-05-22 下午9.22.16.png 

2. 成本建设

 

当前云原生服务成为云计算主流的服务形态,但由于云原生化的应用程序及其资源需求常常是动态变化,这也导致云成本的计算复杂性。为此,SREWorks内置一套完整的成本管理解决方案,包含资源消耗计量计费的可视化、资源使用明细分析,用于辅助用户优化和治理云资源成本。

 

SREWorks系统设置下的成本定价模型,重点从资源层面(CPU、内存、存储)进行成本核算。平台会自动按照应用粒度,每天进行应用资源用量和成本计费汇总,汇总数据自动同步至数据仓库应用成本模型APP_COST存储。

 

image.png

 

3. 效率建设

 

运维效率即运维活动的效率,代表了运维的平台化能力,包括自动化运维操作和自动化的构建部署等,而人效比是最能直接体现运维效率衡量人力资源价值的指标。

 

image.png

image.png

 

4. 运营中心

 

运营中心从质量、成本、效率三个维度,提供应用的实时健康分、健康实例统计、应用可用率、应用成本占比、资源分配、运维人效、运维操作统计等关键数据看板,致力于保证用户获取准确可靠的应用运行状况、健康趋势、成本资源水位以及人力消耗,从而作出稳定性保障、预算准备、资源扩容等运维决策。

 

image.png

 

四、 结语

 

随着阿里巴巴云原生大数据运维平台SREWorks的开源,我们得以将其中的数据化运维思想和运维实践分享给大家,抛砖引玉,希望能给大家带来不一样的思想碰撞。同时欢迎大家持续关注我们的开源数据化平台,期待与您进行沟通交流,一起推动云原生数据化运维的发展建设。

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
7月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
8月前
|
存储 运维 安全
运维知识沉淀工具深度解析:从结构设计到落地实践全拆解
运维知识沉淀工具助力团队将零散经验结构化存储,实现问题处理路径标准化、知识复用化。通过标签、模板与自动化调取机制,让每次处理都留下可复用资产,提升团队协同效率与系统稳定性。
|
8月前
|
运维 Dubbo Cloud Native
Dubbo 云原生重构出击:更快部署、更强控制台、更智能运维
Apache Dubbo 最新升级支持云原生,提供一键部署微服务集群与全新可视化控制台,提升全生命周期管理体验,助力企业高效构建云原生应用。
872 25
|
7月前
|
机器学习/深度学习 人工智能 运维
三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践
这篇文章系统性地阐述了 AI 原生时代下,面向技术风险领域的智能体系统(DeRisk)的架构设计、核心理念、关键技术演进路径与实践落地案例。
三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践
|
8月前
|
运维 Kubernetes Cloud Native
云原生运维也能很稳:Kubernetes 运维避坑指南
云原生运维也能很稳:Kubernetes 运维避坑指南
268 1
|
9月前
|
运维 监控 Cloud Native
从“守机器”到“写策略”——云原生架构把运维逼成了架构师
从“守机器”到“写策略”——云原生架构把运维逼成了架构师
218 1
|
9月前
|
运维 监控 负载均衡
高效运维实践:常见问题的应对策略与实践经验
本文探讨了运维工作中的五大核心挑战及应对策略,涵盖负载均衡优化、数据库性能提升、系统监控预警、容器化与微服务运维等方面,旨在帮助企业提升系统稳定性与运维效率。
|
9月前
|
运维 监控 安全
从实践到自动化:现代运维管理的转型与挑战
本文探讨了现代运维管理从传统人工模式向自动化转型的必要性与路径,分析了传统运维的痛点,如效率低、响应慢、依赖经验等问题,并介绍了自动化运维在提升效率、降低成本、增强系统稳定性与安全性方面的优势。结合技术工具与实践案例,文章展示了企业如何通过自动化实现运维升级,推动数字化转型,提升业务竞争力。
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
539 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
8月前
|
运维 监控 Cloud Native
从本土到全球,云原生架构护航灵犀互娱游戏出海
本文内容整理自「 2025 中企出海大会·游戏与互娱出海分论坛」,灵犀互娱基础架构负责人朱晓靖的演讲内容,从技术层面分享云原生架构护航灵犀互娱游戏出海经验。
692 15