SREWorks云原生数智运维工程实践-SREWorks 介绍篇-阿里云原生大数据运维平台SREWorks正式开源(中)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: SREWorks云原生数智运维工程实践-SREWorks 介绍篇-

二、 SREWorks有什么优势?

 

回归到运维领域的需求,无论上层产品和业务形态怎么变化,运维本质上解决的还是“质量、成本、效率、安全”相关需求。SREWorks用一个运维SaaS应用界面来支撑上述需求,同时以“数智”思想为内核驱动SaaS能力,具体包括交付、监测、管理、控制、运营、服务六部分。

 

image.png

 

1. 体系化运维平台分层架构

 

从“质量、成本、效率、安全”四个维度出发看运维本质相关工作,运维除了要搭平台、建规范、做标准,还要用自动理念提升效率,用数据驱动测试/开发/运维,用智能手段提前发现/预测风险问题等。这些可以看成是方法论。如何能从理论快速获得一套体系化、工程化、产品化的能力实践,去支撑满足上述四个维度的需求,就是SREWorks所考虑的问题。

 

image.png

 

阿里云大数据SRE团队利用分层思想构筑了SREWorks平台产品体系,借鉴经典SPI(SaaS/PaaS/IaaS)三层划分思路,SREWorks由“运维SaaS应用场景层、运维PaaS中台服务层、运维IaaS接入层”三部分构成。

 

SREWorks中还融入了运维规范、标准化思想,利用产品承载自动化流程、数据驱动、智能内核的方法论。从代码到线上业务服务的整个过程,运维或多或少地参与了其中一些工作,因此,围绕应用的生命周期,在SaaS场景层划分了“交付、监测、管理、控制、运营、服务”六大区。如下图所示,每块内容里都有代表性的核心功能。

 

image.png

 

SREWorks中统一以应用抽象来描述业务系统,在开发人员将研发完成的应用制品交付上线后,就会对线上应用实例生命周期进行监测、管理、控制。SREWorks所拥有的运维数据能力会提供增值化的运营、服务,为有需要的人员提供便捷的视图、管理能力等。

 

“交付、监测、管理、控制、运营、服务”六大场景在SREWorks产品手册中有详细的定义及边界说明。

 

2. 完整的数据化运维体系实践

 

image.png

 

一套数据化运维体系,会把所有系统的运维数据全部采集起来、真正打通,并深度挖掘这些数据的价值,为运维提供数据决策;同时构建数据化运维业务模型,基于该模型建立标准化运维数仓,建设数据运维平台,在平台中规范运维数据的采集、存储、计算及分析,并提供一系列数据化服务,供上层运维场景使用。

 

image.png

 

有了运维相关的量化数据,对运维工作的描述和衡量将更加立体化,可以建立长期可持续优化的运维工作模式,实现真正的运维价值。

 

image.png

 

3. 服务化的AIOps智能运维平台

 

在阿里云大数据SRE团队看来,AIOps的出现并没有改变运维的表现形式,依旧还是“交付、监测、管理、控制、运营、服务”的界面,只是在大量运维数据化工作的基础之上,利用AI能力探索、挖掘智能化运维场景。因此,在一开始构筑AIOps工程实践时,就坚持打造“感知、决策、执行”的闭环,类似自动驾驶的理念。

 

image.png

 

SREWorks将量身定制的算法与运维场景化结合,能够提前预测、关联分析,增强风险预防、故障定界定位能力,实现传统手段无法获得的运维价值。具体而言,将每一个智能化的运维服务包装成感知的“监测器”、决策的“分析器”、执行的“策略器”,供健康管理、变更管理等系列服务调用,即可增强已有运维场景,解决一些普通手段无法解决的问题。

 

4. 运维中台化、低代码化及云原生化运维开发体验

 

SREWorks套件自身也是云原生化的应用,并且采用运维中台思想构建,在中台里构建大量的PaaS化运维服务能力,在前台围绕“交、监、管、控、营、服”六大场景提供SaaS化运维场景应用。

 

image.png

 

大部分页面为企业后端控制台类系统,不太需要很酷炫的交互设计,故而,运维开发领域的前端开发始终难于追赶前端流行趋势。针对这些特点,SREWorks创新性地设计了一套Serverless体验的前端开发模式。

 

image.png

 

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
4月前
|
弹性计算 运维 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生Serverless实践
简介: 通过与阿里云深度合作,国诚投顾完成了从传统 ECS 架构向云原生 Serverless 架构的全面转型。新的技术架构不仅解决了原有系统在稳定性、弹性、运维效率等方面的痛点,还在成本控制、API 治理、可观测性、DevOps 自动化等方面实现了全方位升级。
142 1
|
3月前
|
存储 弹性计算 Cloud Native
云原生数据库的演进与应用实践
随着企业业务扩展,传统数据库难以应对高并发与弹性需求。云原生数据库应运而生,具备计算存储分离、弹性伸缩、高可用等核心特性,广泛应用于电商、金融、物联网等场景。阿里云PolarDB、Lindorm等产品已形成完善生态,助力企业高效处理数据。未来,AI驱动、Serverless与多云兼容将推动其进一步发展。
187 8
|
3月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
301 1
|
3月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
284 1
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
194 14
|
5月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
170 4
|
4月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
162 0