《泛娱乐行业技术服务白皮书》——四、泛娱乐业务保障与调优最佳实践——4.1游戏运维SRE实践——4.1.1 制定SRE黄金准则

简介: 《泛娱乐行业技术服务白皮书》——四、泛娱乐业务保障与调优最佳实践——4.1游戏运维SRE实践——4.1.1 制定SRE黄金准则

架构设计准则-我们认为所有的架构都是不完美的,  都存在缺陷,  因此我们在 做业务架构设计时都必须要考虑服务稳定性保障,如负载均衡、多点容灾、集群化服、数据多活等能力;


SRE前置准则-在业务立项之初,SRE角色需要提前介入,将运营阶段可能出 现的问题或风险提前在架构设计、编码阶段暴露,提前准备好解决方案,甚至规避问与风险;


混沌实验准则-故障不可避免,  为何不让其在测试或预发布环境提前到来,  通 过模拟现网真实故障来验证服务的“韧性”,找出系统的弱点,同时验证我们的监控告警的有效性,在MTBF阶段实施最好不过,也是我们其中一把利器;


观测性准则-通过采集业务指标、日志、追踪等数据,快速分析与定位问 题,同时发现复杂系统的瓶颈点,在很长一段时间内,业务指标、日志、追踪的采集 与应用,都是独立存在并分开建设,随着时间的推移,发现这三者是相互关联,相辅相成的是我们的第二把利器;


全链路压准则-通过与可观测性、混沌实验能力的深度整合,  实现模拟真实 业务环境全链路压测,达到业务上线前的精准资源评估,主动发现潜在性能、版本缺等问题,是我们的第三把利器;


DevOps交付准则-过打造高效的价值交付链,覆盖CICDCO服务全生命 周期运营管理,CI我们采用ODP封装蓝盾方案,CD 与 CO 采用蓝鲸运维编排及监控告警等能力,SRE会将大分部精力聚焦在CO环节;


故障应急准则 - 故障不可避免,我们能做的是不断去提升MTBF,降低MTTR,包括事前的实施大量混沌实验、故障预案;事中采用打造的工具链,快速发现、分析、定位与解决问题;事后组织总结复盘,沉淀案例经验


SRE学习准则-营造学习的文化,目的是实现多个不同职能团队的有机融合 相互了解大家面临的问题或挑战,形成一致的目标,达到有效的协同,解决业务。

相关文章
|
4月前
|
人工智能 运维 自然语言处理
别再靠“救火”过日子了:智能运维,正在重塑IT服务的未来
别再靠“救火”过日子了:智能运维,正在重塑IT服务的未来
440 15
|
6月前
|
传感器 边缘计算 运维
AR 虚实叠加技术在工业设备运维中的实现流程方案
AR技术通过虚实信息融合,实现工业设备参数可视化、故障立体化、操作直观化,提升运维效率与精度。结合物联网与数字孪生,打造智能运维新范式。
|
4月前
|
数据采集 运维 监控
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
本文系统解析爬虫与自动化核心技术,涵盖HTTP请求、数据解析、分布式架构及反爬策略,结合Scrapy、Selenium等框架实战,助力构建高效、稳定、合规的数据采集系统。
938 62
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
|
6月前
|
传感器 人工智能 运维
AR技术电力智慧运维白皮书
AR技术正重塑电力运维模式,通过“端-边-云”协同系统,实现设备可视化、远程协作与智能预警,大幅提升效率与安全性,推动电力行业迈入智能运维新时代。
|
7月前
|
运维 监控 安全
打怪升级不是梦!运维也能靠“游戏化”高效运转?试试看就知道了!
打怪升级不是梦!运维也能靠“游戏化”高效运转?试试看就知道了!
105 1
|
4月前
|
存储 运维 监控
57_大模型监控与运维:构建稳定可靠的服务体系
随着大语言模型(LLM)技术的快速发展和广泛应用,如何确保模型在生产环境中的稳定运行、高效服务和安全合规已成为企业和开发者面临的关键挑战。2025年,大模型服务已从实验室走向各行各业的核心业务流程,其运维复杂度也随之呈指数级增长。与传统软件系统不同,大模型服务具有参数规模庞大、计算密集、行为不确定性高等特点,这使得传统的运维监控体系难以满足需求。
|
6月前
|
运维 监控 jenkins
企业服务交付慢?运维技术其实就是“加速器”
企业服务交付慢?运维技术其实就是“加速器”
151 5
|
12月前
|
运维 监控 安全
ARMS 助力假面科技研发运维提效,保障极致游戏体验
阿里云 ARMS 团队助力假面科技游戏业务实现全业务、全场景的监控和告警,全面提升监控覆盖率和告警有效率,其中告警平均恢复耗时(MTTR)缩短 50% 以上。
488 110
|
9月前
|
人工智能 运维 监控
HarmonyOS NEXT~鸿蒙系统运维:全面解析与最佳实践
本书《HarmonyOS NEXT~鸿蒙系统运维:全面解析与最佳实践》深入探讨了鸿蒙系统的运维管理。从架构特点到实际操作,涵盖分布式能力、性能优化、安全维护及故障排查。内容包括设备管理、系统监控、安全管理等核心任务,提供常见问题解决方案与工具推荐。面对未来超级终端和AI赋能的挑战,运维人员需不断学习,以充分发挥鸿蒙的分布式优势,为用户带来流畅体验。
756 8
|
机器学习/深度学习 运维 自然语言处理
大模型技术在运维中的知识管理革命
大模型技术在运维中的知识管理革命
659 81

热门文章

最新文章