SREWorks云原生数智运维工程实践-SREWorks 介绍篇-基于Elasticsearch 生长的SREWorks 数据化运维体系(下)

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: SREWorks云原生数智运维工程实践-SREWorks 介绍篇-基于Elasticsearch 生长的SREWorks 数据化运维体系

三、 基于SREWorks数据化运维实践

 

1. 稳定性建设

 

服务链路全观测建设

 

由于IT系统日益增加的复杂度、大量云原生技术的采用,使得服务快速排障变得越来越难。而指标、日志和追踪三大可观测性支柱,可以实现服务的白盒监控能力。

 

image.png

 

SREWorks数据平台集成metricbeat、filebeat、skywalking等数据采集agent和自研数据采集场景作业,提供全托管一站式可观测数据采集能力,可以直接获取运行系统的指标、日志和调用链,协助问题的排查和诊断,缩短故障恢复时长TTR

 

image.png

 

健康管理服务建设

 

为了帮助用户更好的感知系统运行状态,实现系统的监控管理,结合阿里Emon团队的智能检测服务和自研作业场景服务,构筑健康管理服务。包括事件采集管理、风险巡检、指标告警检测、异常诊断场景作业,帮助用户识别风险、分析告警、进行异常诊断和自愈以及故障管理。

 

建设规范化健康管理平台,能够降低或者消除系统隐患,尽最大可能将潜在故障扼杀在萌芽状态。一旦故障发生及时通知关联人员,进一步提升应对效率,确保行动的有效性。

 

屏幕快照 2023-05-22 下午9.22.16.png 

2. 成本建设

 

当前云原生服务成为云计算主流的服务形态,但由于云原生化的应用程序及其资源需求常常是动态变化,这也导致云成本的计算复杂性。为此,SREWorks内置一套完整的成本管理解决方案,包含资源消耗计量计费的可视化、资源使用明细分析,用于辅助用户优化和治理云资源成本。

 

SREWorks系统设置下的成本定价模型,重点从资源层面(CPU、内存、存储)进行成本核算。平台会自动按照应用粒度,每天进行应用资源用量和成本计费汇总,汇总数据自动同步至数据仓库应用成本模型APP_COST存储。

 

image.png

 

3. 效率建设

 

运维效率即运维活动的效率,代表了运维的平台化能力,包括自动化运维操作和自动化的构建部署等,而人效比是最能直接体现运维效率衡量人力资源价值的指标。

 

image.png

image.png

 

4. 运营中心

 

运营中心从质量、成本、效率三个维度,提供应用的实时健康分、健康实例统计、应用可用率、应用成本占比、资源分配、运维人效、运维操作统计等关键数据看板,致力于保证用户获取准确可靠的应用运行状况、健康趋势、成本资源水位以及人力消耗,从而作出稳定性保障、预算准备、资源扩容等运维决策。

 

image.png

 

四、 结语

 

随着阿里巴巴云原生大数据运维平台SREWorks的开源,我们得以将其中的数据化运维思想和运维实践分享给大家,抛砖引玉,希望能给大家带来不一样的思想碰撞。同时欢迎大家持续关注我们的开源数据化平台,期待与您进行沟通交流,一起推动云原生数据化运维的发展建设。

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
2天前
|
Kubernetes Cloud Native 持续交付
云原生技术在现代应用开发中的角色与实践
【9月更文挑战第9天】 随着云计算技术的飞速发展,云原生(Cloud Native)已经成为推动企业数字化转型的核心力量。本文将深入探讨云原生的基本概念、关键技术及其在实际开发中的应用案例,旨在为读者提供一条清晰的云原生技术学习路径和应用指南。通过实例分析,我们将揭示云原生如何优化资源管理、提升应用性能及加快部署速度,进而帮助企业构建更加灵活、可靠和高效的软件系统。
|
5天前
|
监控 Cloud Native 持续交付
云原生时代的微服务架构实践
【9月更文挑战第5天】随着云计算技术的飞速发展,云原生已成为现代软件开发的重要趋势。本文将深入探讨在云原生环境下,如何有效实施微服务架构,包括服务拆分、容器化部署、持续集成与交付等关键环节。通过具体案例,我们将展示如何在云平台上构建弹性、可扩展的微服务应用,并讨论在此过程中可能遇到的挑战及解决策略。
|
4天前
|
监控 Cloud Native 安全
云原生时代的微服务架构实践
【9月更文挑战第6天】在数字化转型的浪潮中,云原生技术以其灵活性、可扩展性成为企业架构升级的首选。本文将通过浅显易懂的语言和生动的比喻,带你一探微服务架构的世界,从理论到实践,逐步揭示如何利用云原生技术构建高效、可靠的微服务系统,同时穿插代码示例,为有志于云原生领域发展的技术人员提供一份实操指南。
20 2
|
6天前
|
Cloud Native 持续交付 Docker
云原生技术实践:Docker容器化部署教程
【9月更文挑战第4天】本文将引导你了解如何利用Docker这一云原生技术的核心工具,实现应用的容器化部署。文章不仅提供了详细的步骤和代码示例,还深入探讨了云原生技术背后的哲学,帮助你理解为何容器化在现代软件开发中变得如此重要,并指导你如何在实际操作中运用这些知识。
|
5天前
|
运维 Cloud Native 持续交付
云原生时代下的微服务架构实践
在数字化转型的浪潮中,云原生技术以其高效、灵活的特性成为企业IT架构升级的首选。本文将通过深入浅出的方式,探讨云原生环境下微服务架构的设计原则、关键技术及实施策略,旨在为读者提供一条清晰的技术路线图,帮助理解和掌握在云平台上构建和管理微服务的实用方法。
|
9天前
|
运维 Cloud Native Devops
云原生时代的DevOps实践:自动化、持续集成与持续部署
【9月更文挑战第3天】未来,随着人工智能、大数据等技术的不断融入,DevOps实践将更加智能化和自动化。我们将看到更多创新的技术和工具涌现出来,为软件开发和运维带来更多便利和效益。同时,跨团队协作和集成也将得到进一步加强,推动软件开发向更加高效、可靠和灵活的方向发展。
|
11天前
|
Kubernetes Cloud Native Docker
探索云原生技术:从容器化到微服务的实践之旅
在数字时代的浪潮中,云原生技术如同一艘航船,带领企业乘风破浪。本文将带你领略云原生的奥妙,从容器化技术的基石Docker讲起,到Kubernetes集群管理的航海术,再到微服务的架构设计,我们将一起构建、部署并运行一个简单的云原生应用。准备好,让我们启航!【8月更文挑战第31天】
|
10天前
|
运维 自然语言处理 安全
自动化运维的利器:Ansible入门与实践
【8月更文挑战第33天】在现代IT基础设施的管理中,自动化运维已成为提高效率、减少错误的关键技术。Ansible作为一款开源的自动化配置管理和应用部署工具,以其简洁性、易用性和强大的功能受到广泛欢迎。本文将介绍Ansible的基本概念、安装步骤和简单使用,通过实际案例展示其在自动化运维中的应用。
|
5天前
|
运维 Ubuntu Devops
自动化运维工具的魅力:Ansible入门
【9月更文挑战第5天】在快速变化的IT世界里,自动化运维不再是可选项,而是必需品。Ansible,一款简单却强大的自动化工具,正成为众多DevOps工程师的首选。本文将带你了解Ansible的基本概念、安装步骤以及如何编写简单的Playbook,从而开启你的自动化之旅。
54 35
|
3天前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。

热门文章

最新文章