《IT运维之道》—— 导读
本书共分为五大篇,即机遇篇、做事篇、处事篇、技能篇和高级篇。每篇又分为若干章节,从不同的层面、角度阐述做人做事的方法以及相关基础知识。由于IT服务中最主要也是最基本的服务就是IT运维服务,因此本书对此方面的着墨最多。
GTS-SRE周刊 || 5月集强势发布
阿里云智能全球技术服务部(GTS)-SRE团队于2019年正式成立,由原专有云、公共云的TAM团队及集团高可用基础技术团队融合而成,是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队,也是阿里集团高可用基础技术核心缔造团队。
RocketMQ实战—6.生产优化及运维方案
本文围绕RocketMQ集群的使用与优化,详细探讨了六个关键问题。首先,介绍了如何通过ACL配置实现RocketMQ集群的权限控制,防止不同团队间误用Topic。其次,讲解了消息轨迹功能的开启与追踪流程,帮助定位和排查问题。接着,分析了百万消息积压的处理方法,包括直接丢弃、扩容消费者或通过新Topic间接扩容等策略。此外,提出了针对RocketMQ集群崩溃的金融级高可用方案,确保消息不丢失。同时,讨论了为RocketMQ增加限流功能的重要性及实现方式,以提升系统稳定性。最后,分享了从Kafka迁移到RocketMQ的双写双读方案,确保数据一致性与平稳过渡。
运维服务体系架构
【2月更文挑战第28天】构建数据中心的IT运维服务体系,需整合资源,规范行为,确保服务质量。该体系基于ITIL和ITSS标准,全面覆盖IT服务生命周期和业务类型,统筹规划并保持科学权威。体系由制度、流程、组织、队伍、技术平台和运维对象六部分组成,制度规定流程,组织和人员遵循制度执行标准化运维。重点包括运维服务制度与流程的制定、专业团队的建设和统一的工作流程,以及运用技术平台进行规范化管理。
智能运维:云原生大规模集群GitOps实践
智能运维:云原生大规模集群GitOps实践,由阿里云运维专家钟炯恩分享。内容涵盖云原生运维挑战、管理实践、GitOps实践及智能运维体系。通过OAM模型和GitOps优化方案,解决大规模集群的发布效率与稳定性问题,推动智能运维工程演进。适用于云原生环境下的高效运维管理。
服务器高效运维管理方案
智能运维作为保障业务连续性和提升系统性能的关键环节,其重要性日益凸显。服务器作为承载各类应用与数据的核心基础设施,其稳定性、安全性和性能直接关系到企业的业务运行效率和用户体验