SREWorks云原生数智运维工程实践-导语

简介: SREWorks云原生数智运维工程实践-

本书会教读者如何利用SREWorks开源数智运维平台,来构建满足业务需求的数智运维体系。本书不会有太多手把手的直接教学内容,更多的是告诉读者如何去整理当前的技术栈,才能进一步向数智运维演进;让读者了解到云原生下的运维体系能够为企业带来什么样的实际价值。

 

孵化SREWorks的开发团队也是一支大数据基础工程技术团队,他们将数据化运维、智能化运维引入到运维体系中。以监控为例,监控不仅仅是agent采集上报就结束了,将数据通过ETL抽取Extract/转换Transform/加载Load处理成各种结构的数据,通过智能算法或者规则对其进行分析,最后将分析结果变化成可以直接执行的自动化指令,实现数智运维才是一个完整的闭环。想要了解数智运维体系以及平台架构,推荐阅读《SREWorks介绍篇》。

 

云原生的架构不仅仅是工作负载从进程变成容器Container继而变成Pod这么简单,很多原本在虚拟机内实现的调度逻辑被释放到了k8s的控制平面,这一改变增加了容器编排的复杂度,但也进一步提升云原生架构的通用性和灵活性。SREWorks运维开发团队凭借在大数据大规模集群的丰富运维开发经验,在云原生场景下快速迭代演进,实现了数智运维方案云原生化。如果希望了解云原生技术栈如何演进的同学推荐阅读《Kubernetes资源编排篇》。

 

众所周知,单集群5000个节点曾是集群规模化的一个门槛,在这个体量下很多技术方案都会出现从量变到质变的飞跃。阿里飞天集群在2013年就达到了5K的规模,而孵化SREWorks的团队正是支撑这个5K集群背后的运维团队。团队里自行研发的无数个运维工具撑起了飞天5K集群的一次次的升级、扩容以及变更。也是这些历练,让这些工具快速成长为各种面向海量机器、规模集群的平台化运维方案:从交付到监测,从管理到运营,所有相关的能力一应俱全。想要知晓这些平台化的能力如何在生产环境中大显身手,推荐阅读《云原生运维实战篇》。

 

本书适合正在向云原生转型的技术老兵,也适合刚入行正在熟悉k8s的小白。推荐阅读完本书后配合SREWorks进行实践,效果更佳。

相关文章
|
2月前
|
Cloud Native 持续交付 开发者
云原生技术在现代企业中的应用与实践####
本文深入探讨了云原生技术的核心概念及其在现代企业IT架构转型中的关键作用,通过具体案例分析展示了云原生如何促进企业的敏捷开发、高效运维及成本优化。不同于传统摘要仅概述内容,本部分旨在激发读者对云原生领域的兴趣,强调其在加速数字化转型过程中的不可或缺性,为后续详细论述奠定基础。 ####
|
2月前
|
Cloud Native
邀您参加云原生高可用技术沙龙丨云上高可用体系构建:从理论到实践
云原生高可用技术专场,邀您从理论到实践一起交流,探索云上高可用体系构建!
|
2月前
|
Cloud Native 安全 Java
铭师堂的云原生升级实践
铭师堂完整经历了云计算应用的四个关键阶段:从”启动上云”到”全量上云”,再到”全栈用云”,最终达到”精益用云”。通过 MSE 云原生网关的落地,为我们的组织带来了诸多收益,SLA 提升至100%,财务成本降低67%,算力成本降低75%,每次请求 RT 减少5ms。
铭师堂的云原生升级实践
|
2月前
|
存储 人工智能 调度
容器服务:智算时代云原生操作系统及月之暗面Kimi、深势科技实践分享
容器技术已经发展成为云计算操作系统的关键组成部分,向下高效调度多样化异构算力,向上提供统一编程接口,支持多样化工作负载。阿里云容器服务在2024年巴黎奥运会中提供了稳定高效的云上支持,实现了子弹时间特效等创新应用。此外,容器技术还带来了弹性、普惠的计算能力升级,如每分钟创建1万Pod和秒级CPU资源热变配,以及针对大数据与AI应用的弹性临时盘和跨可用区云盘等高性能存储解决方案。智能运维方面,推出了即时弹性节点池、智能应用弹性策略和可信赖集群托管运维等功能,进一步简化了集群管理和优化了资源利用率。
|
2月前
|
Cloud Native 安全 Java
杭州铭师堂的云原生升级实践
在短短 2-3 年间,杭州铭师堂完整经历了云计算应用的四个关键阶段:从“启动上云”到“全量上云”,再到“全栈用云”,最终达到“精益用云”。也从云计算的第一次浪潮,迈过了第二次浪潮,顺利的进入到了 第三次浪潮 AI + 云。
157 13
|
2月前
|
Kubernetes Cloud Native API
云原生入门:从理论到实践的探索之旅
本文旨在为初学者提供一个关于云原生技术的全面介绍,包括其定义、核心原则、关键技术组件以及如何将这些概念应用于实际项目中。我们将通过一个简易的代码示例,展示如何在云原生环境下部署一个简单的应用,从而帮助读者更好地理解云原生技术的实践意义和应用价值。
|
2月前
|
运维 Cloud Native 开发者
云原生技术入门与实践
在云计算的浪潮中,云原生技术以其独特的优势和魅力吸引了越来越多的开发者和企业。本文将从云原生技术的基本概念、核心组件以及实际应用三个方面进行详细介绍,帮助读者更好地理解和掌握这一新兴技术。同时,文章还将分享一些实际案例和经验教训,让读者能够更深入地了解云原生技术的应用场景和发展趋势。
72 5
|
2月前
|
运维 监控 Cloud Native
云原生之运维监控实践:使用 taosKeeper 与 TDinsight 实现对 时序数据库TDengine 服务的监测告警
在数字化转型的过程中,监控与告警功能的优化对保障系统的稳定运行至关重要。本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一,详细介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监控与告警功能。作者通过容器化安装 TDengine 和 Grafana,演示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、以及如何设置告警规则和通知策略。欢迎大家阅读。
65 0
|
2月前
|
Cloud Native API 持续交付
云原生架构下的微服务治理策略与实践####
本文旨在探讨云原生环境下微服务架构的治理策略,通过分析当前面临的挑战,提出一系列实用的解决方案。我们将深入讨论如何利用容器化、服务网格(Service Mesh)等先进技术手段,提升微服务系统的可管理性、可扩展性和容错能力。此外,还将分享一些来自一线项目的经验教训,帮助读者更好地理解和应用这些理论到实际工作中去。 ####
66 0
|
24天前
|
监控 运维
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
本文介绍如何设置和查看域名或证书监控。步骤1:根据证书状态选择新增域名或证书监控,线上部署推荐域名监控,未部署选择证书监控。步骤2:查询监控记录详情。步骤3:在详情页查看每日定时检测结果或手动测试。
HTTPS 证书自动化运维:https证书管理系统- 自动化监控

热门文章

最新文章