GTS-SRE周刊 || 5月集强势发布

简介: 阿里云智能全球技术服务部(GTS)-SRE团队于2019年正式成立,由原专有云、公共云的TAM团队及集团高可用基础技术团队融合而成,是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队,也是阿里集团高可用基础技术核心缔造团队。

test

前言

阿里云智能全球技术服务部(GTS)-SRE团队于2019年正式成立,由原专有云、公共云的TAM团队及集团高可用基础技术团队融合而成,是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队,也是阿里集团高可用基础技术核心缔造团队,为集团设计和建设了异地多活、大促容量规划、限流降级、开关预案、流量调度、故障演练、资损防控等高可用架构基础设施,深度参与支持了集团历年双11大促的技术保障工作,我们期望通过SRE周刊:

- 将阿里云智能最先进的产品、运维技术传递给不同行业的客户和伙伴,帮助大家更全面深入地了解阿里云产品。
- 促进技术上互相交流,取长补短,打造阿里云产品运维人社区论坛,共同促进阿里云产品的不断完善。

点击加入社区技术论坛,随时交流技术难题

阿里云SRE技术期刊重点内容概览- 2020年5月第1周

本周封神榜:智能运维服务助手

封神榜是SRE团队提供的从业务、产品、安全、故障四个维度对项目进行全方位监控的运维服务工具,可实现为不同关注点的客户提供问题、故障、性能、容量、优化建议等运维服务内容推送。
功能定位:稳定性是基础、增强运维服务、补全监控短板。
服务目标:业务优化、云平台监控、客户服务、故障响应。
应用实践:MQ实例监控、安全事件告警。

服务案例:SRE团队全力保障多地健康码顺利上线(上)

2020年初,新冠肺炎疫情爆发,阿里巴巴配合多地政府开发健康码,实现数字化防疫。SRE团队协助完成各类资源准备、业务压测、业务优化以及持续性数据监控等工作,保证了健康码顺利上线和运作。

阿里云SRE技术期刊重点内容概览- 2020年5月第2周

本周技术:RocketMQ消息存储技术

RocketMQ是阿里开源的分布式消息中间件,跟其它中间件相比, Rocketmo的特点是纯JAVA实現、集群和HA实现相对简单、在发生宕机和其它故障时消息丢失率更低,具有良好的高可用架构及稳定性。其发展的代历史如下图所示,从2007年至今已发展超过10年。
消息存储架构:相关文件有三种,CommitLog、ConsumeQueue、IndexFile
90CF0A82_48D3_4d32_BB20_8BEA873F6EE4

消息刷盘:分为同步刷盘和异步刷盘,同步刷盘使用于金融业务应用,异步刷盘读写延迟降低,可提高MQ的性能和吞吐量

阿里云SRE技术期刊重点内容概览- 2020年5月第3周

本周产品:铜雀:阿里云智能巡检管家

作为云平台告警信息与监控的统一门户,铜雀专注于智能化巡检及问题诊断,是TAM和驻场服务团队日常工作中的首要工具。铜雀主要为客户、业务应用开发商、TAM、驻场提供以下服务:
客户:了解云平台的健康状况和资源使用情况,通过对历史发展趋势的分析,发现可能的资源缺口和扩容需求。
业务应用开发商:通过铜雀分析可能导致线上应用问题的原因或提供排查方向TAM:通过铜雀发现云平台或业务应用所存在的风脸和问题,并跟进处理。
驻场:使用铜雀简化日常的运维类工作,井提升工作效率。比如:一键巡检、驻场日报自动生成、白屏化分析工具等。
C5F8A079_9C25_4408_A660_844483525FEB

本周实践:阿里高可用架构建设实践经验

随着业务在线化互联网化的高速发展,企业对核心业务系统的稳定性、可靠性、有效性、业务连续性等有了更高的要求。采用高可用系统架构支持重要系统、为关键业务提供7x24的不间斷服务,已经成为众多企业保障业务稳定、持续运转的主要选择。阿里巴巴在多年双11高井发、高可用和高客户体验要求背景下积累了相应的技术体系,本文将依据高井发用户、突发高流量场景下的真实案例。
原有业务痛点:
非常复杂的服务端:通常从客户端到达服务端会涉及到的关键节点有CDN、动态加速高防、应用防火墙、4/7层负载均衡、前后端服务集、缓存、数据库存储、中间件、基础设施层等等,整个链路都面临着不确定性,这其中任何一个节点出现问题都会导致服务不可用。
缺乏提前规划的服务能力:如果企业没有对自己的服务能力进行提前规划,没有提前做好关键节点的规划,对线上的应急措施如弹性扩容、线上防护、熔断降级等都不具备,那么在面对突发问题时,就很难保证核心接口能够稳定对外服务。

阿里云SRE技术期刊重点内容概览- 2020年5月第4周

本周技术:浅谈异地多活及阿里云容灾经验分享

异地多活,英文Mut- Site High Availability,顾名思义就是分布在异地多个站点同时对外提供服务。与传统灾备最主要的区别是“多活”里所有站点都是同时在对外提供服务的,具体有以下几点不同:
应急状态有风险:传统的灾备中心平时不提供服务,关键时刻无法确定切换到灾备中心是否可以切换成功。
成本高:传统的灾备中心平时不提供服务,整个灾备资源会处于浪费状态,成本比较高。
地域资源瓶颈:传统的灾备中心平时不提供服务,所以平时提供服务的数据中心还停留在单地域,当业务体量大到一定程度时,这种模式无法解决单地域资源瓶颈的问题。
因为通过传统的灾备手段无法解决上述问题,阿里巴巴经过多年研究,成功在2013年的双十一实现了“丝般柔顺”的用户体验后,“异地多活”这项基础技术首次在业界亮相。
4F65FB0D_A436_4d0f_9A6F_043400C6B09B

结语

阿里云的5RE团队自从诞生之日起,就被予了"服务"于客户的基因,帮助广大阿里云企业客户上云、用好云,让客户云上业务运行更加稳定可靠。从服务的视角,团队重新定义了SRE的内涵( Service Reliability Engineering):致力成为一个以技术为基础、面向服务、保业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。
全新的定义承接了全新的使命,我们也深刻践行着阿里巴巴集团toB的企业服务初心,同时陪伴着伙伴和客户一起成长。

test

扫码进钉群 下载周刊集,并获取一手阿里云SRE资料

关注“阿里云文档”云栖号,第一时间了解阿里云最全最新资料内容吧!
相关文章
|
运维 监控 专有云
TAC报警中心: 专有云告警生命周期一站式管理运维平台
TAC报警中心是阿里云SRE混合云团队为专有云精心打造的一站式告警运维平台,覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题,协助产品团队进行产品优化。
TAC报警中心: 专有云告警生命周期一站式管理运维平台
|
6月前
|
存储 机器学习/深度学习 人工智能
使用 LangChain + Higress + Elasticsearch 构建 RAG 应用
本文介绍了如何利用LangChain、Higress和Elasticsearch快速构建RAG(检索增强生成)应用,实现企业知识的智能检索与问答。首先通过LangChain解析Markdown文档并写入Elasticsearch,接着部署Higress AI网关并配置ai-search插件以整合私有知识库与在线搜索功能。最后,通过实际案例展示了RAG查询流程及结果更新机制,确保内容准确性和时效性。文章还提供了相关参考资料以便进一步学习。
709 38
|
存储 监控 固态存储
【vSAN分布式存储服务器数据恢复】VMware vSphere vSAN 分布式存储虚拟化平台VMDK文件1KB问题数据恢复案例
在一例vSAN分布式存储故障中,因替换故障闪存盘后磁盘组失效,一台采用RAID0策略且未使用置备的虚拟机VMDK文件受损,仅余1KB大小。经分析发现,该VMDK文件与内部虚拟对象关联失效导致。恢复方案包括定位虚拟对象及组件的具体物理位置,解析分配空间,并手动重组RAID0结构以恢复数据。此案例强调了深入理解vSAN分布式存储机制的重要性,以及定制化数据恢复方案的有效性。
329 5
|
存储 NoSQL 容灾
手把手教你如何搭建redis集群(一)
手把手教你如何搭建redis集群(一)
601 1
|
供应链
八大战略助力供应链应对地缘政治挑战与七大新兴风险
八大战略助力供应链应对地缘政治挑战与七大新兴风险
|
Linux API 开发者
SDL库入门:掌握跨平台游戏开发和多媒体编程(一)
SDL库入门:掌握跨平台游戏开发和多媒体编程
1751 1
|
监控
构建三维一体立体化监控,看这一篇就够了!
如果你需要搭建一套能够立体化监控你的应用及业务,出现问题及时告警的监控体系,这篇文章应该是你所需要的!
773 0
构建三维一体立体化监控,看这一篇就够了!
|
存储 人工智能 安全
阿里云oss简介和如何对接使用
阿里云对象存储服务(Alibaba Cloud Object Storage Service,简称OSS)是阿里云提供的一种安全、稳定、高效的对象存储服务。它支持多元数据存储、持久化存储和共享访问,并且具有无限的扩展性和备份恢复能力。阿里云OSS适用于各类场景,如云计算、大数据分析、人工智能等,并且具备高可用性、高可扩展性和低成本等优势。
15295 2
|
存储 运维 监控
《SRE实战手册》学习笔记之SRE落地实践
分段判定原则:对于原因较复杂或链路较长的故障,建议分阶段评估,不同阶段有不同的措施。这一原则的出发点是要摒弃“故障根因只有一个”的观点。
《SRE实战手册》学习笔记之SRE落地实践