Soul运维总监尤首智:企业如何从0到1建设云上运维体系

简介: 提升运维效率,积极推进运维稳定性及平台化建设,持续探索云上能力,借助公共云的帮助实现soul的自有业务迭代。

尤首智.png

图:任意门运维负责人尤首智

 

编者按:2021年12月10日,在阿里云云上架构与运维峰会上,任意门(Soul)运维总监尤首智发表了主题为“Soul云上运维架构创新实践”的演讲,和大家交流了Soul云上运维方面遇到的问题、挑战以及在平台化建设过程中的经验分享。

 

尤首智曾就职于搜狐、奇虎、快手等知名互联网企业,一直从事运维架构、存储、DevOps相关的工作,是一名相关经验非常丰富的“互联网人”。2020年11月加入Soul之后,主要负责运维稳定性及平台化建设,推动DevOps体系落地。本文根据他的演讲整理而成。

 

 

一、Soul云上的问题与挑战


image.gif幻灯片5.JPG

在加入Soul之初,我就面临着四个困难和三个亟待解决的问题:


第一、人力短缺。运维部门只有4名同学,研发线只有200个同学,对于一家年轻的公司来说,1:50这个比例是比较高的。

 

第二、无成型运维工具。工具是存在的,单点上看功能不完备,整体上看运维层面没有串联起来,这大大增加了运维成本。

 

第三、业务高速迭代。每周一个小版本,两周一个大版本,这与公司业务线的发展体系有关,而且Soul也在不断探索一些新的领域。

 

第四、基础架构的缺失。这导致接入和使用方式多种多样,每个部门保持自己独立的基础架构,这种工作形态同样也大幅提高了运维成本。


在这些困难下,我们认为,如何短期内提高运维效率,是Soul运维部门当时阶段首要解决的问题。因为只有提升了运维的效率提升,我们才有更多的时间去做更多的事情,包括提升业务的稳定性、更好地支撑业务快速迭代等。

 

 

二、运维效率提升


Soul对于运维提效制定了四个主要方向,同时也是我入职后落地工作的重要抓手:

 

01 解决云上效率问题

幻灯片6.JPG

Soul在平台建设的过程中使用了大量的阿里云的PaaS产品,并且在日常维护中产生的工单较多,Soul将大量的工单处理交给了阿里云的同学,组成短期快速实现闭环的工作链条,这个给了我们更多的时间去梳理公司现状与问题,节省了极高的时间成本。


02 优化发布平台

image.gif幻灯片7.JPG

Soul也是用了中小型标配的Jenkins、以及一部分阿里云EDAS产品能力,这两款产都不是一个完整的发布体系,都有部分功能缺失,于是我们就选择通过以下几个方面建设CI/CD体系:


◾  发布周期:由于没有固定的发布窗口,大大延长了故障的时间,无法及时处理故障问题,降低了用户的产品试用体验。比如凌晨上线,到第二天上班才知道故障的发生。

◾  完整迭代:从DEV环境到QA再到代码扫描,再到灰度最后到线上,完整的迭代周期串联是团队当初急需要做的。

◾  发布效率:发布当时面临最大的问题是稳定性差,CI/CD一体执行,发布底层salt和ansible执行效率低下;首先我们需要将CI、CD分离;编译所需参数存储于CMDB中,打包动作逐渐脱离jenkins,将编译功能集成在发布平台中;CD部分去掉salt,全部替换为ansible api;

◾  参与度:降低运维的参与度,提高研发与平台交互度,让运维有更多时间更多关注迭代内容、周期、发布次数等。


03 CMDB建设

image.gif幻灯片8.JPG

CMDB是运维最重要的一个信息源,也是完整的运维体系的第一步

 

Soul也将所有的信息源都写入到CMDB中,包括阿里云资产、自建应用信息、服务构建参数及组织架构人员信息。

 

存储相关信息的作用主要在于CI/CD、自动化运维、成本分析、报警、故障能够与客户端表现的直接关联。CMDB构建并没有在短期内一次性完成,是从阿里云的部分资产入手,最后到构建参数,逐步补齐。随着CMDB的逐步补齐,基础环境的标准化也在初步推进。

 

04 运维工单平台的0-1

幻灯片9.JPG

Soul运维工单平台是运维对研发甚至是对公司唯一的入口。在此之前内,部均使用邮件方式沟通,但随之而来的是邮件丢失、延迟的等问题, 导致需求处理延误、因权限管理不清晰而有部分同学自行操作,继而发生各种问题。

 

Soul工单平台更接近云管控,逐渐替代掉阿里云控制台的权限,同时我们使用工单的方式逐渐的规范研发同学对中间件和阿里云底层资源的认知,主要分三个阶段:

阶段一:纯手工打造。工单平台抽象高频的操作和需求,但依然是人工执行。这个阶段的工单平台,更多仅像一个web入口,无太多自动化能力。


阶段二:人工决策,自动执行。这个阶段持续时间较长,工单需完成自动化能力补齐。


阶段三:自动决策,自动执行。将业务对资源的需求与资源类型/资源规格转化,常态化需求描述以及个性化需求描述,需要通过工单平台入口使得运维更加靠近业务。

到此阶段,在半年时间内,运维自身效率已提到提升,有了更多的时间参与稳定性架构改造,同时运维人员也更多的精力关注业务动向。


 

三、稳定性建设


01 面临的问题与挑战

幻灯片11.JPG

Soul不能“挂”是整个团队最重要的OKR,原因是2020年Soul上过两次热搜,都是因为架构不稳定导致站点异常从而引发热议。


第二点是服务预警与快速恢复,这一部分是缺失的状态,导致故障发生后无法第一时间精准定位根因。


第三点是架构演进,Soul的业务体量在持续上涨,体量变大的架构演进是必然的。


02 故障定位与处理

幻灯片13.JPG

稳定性的生命周期中,故障与非故障的时间占比是非常重要,非故障时间需要增加架构的稳定性建设、复盘、演练,才能让故障的时间占比下降,使业务的稳定性向着更加健康的方向发展。最近一年时间里,着重于稳定性建设时间,增加演练次数,下面也会着重分享稳定性改造的相关案例。


03 稳定性改造

image.gif

在过去一年当中,稳定性建设方面,Soul大致进行了上图中的六个工作,我们将从中挑出三个较有代表性的方面展开分享。


改造1:监控系统的演进

幻灯片14.JPG

2020年底,Soul的监控只有AMRS,虽好用但不适合Soul,比如IT治理没有做好,主机组+报警模板+报警联系人+组织架构+发送通知关联不起来,导致只有运维收报警,研发同学收不到。运维同学只能手动转发给研发同学进行处理。

 

在K8s平台方面,Soul当时使用的是Promethues。Promethues最大的问题是无成型web交互,查询及报警语句有相对较高的门槛。

 

到2021年3月,我们开始正式做监控治理,使用OpenFalcon进行底层云产品的监控,同时将公司内部的多套Promethues及阿里云的Promethues服务进行合并,统一Promethues数据源。这样公司里面只有两款监控产品:一个面向底层资源,一个面向K8s。

 

2021年6月,我们开始自研监控系统OWL,从名字“猫头鹰”上能看出来,我们希望它能代替运维同学在晚上值班。

 

OWL监控沿用OpenFalcon前端的页面,兼容Promethues数据,将Promethues的查询及报警语句抽象出来,进行格式化的展示,并添加报警功能。这一点类似于grafana的promethues插件部分,目前已经将所有的报警整合在OWL报警平台当中,同时也实现了信息采集及报警功能完善。

 

下一个阶段是报警网关,报警网关还需要拥有报警接手+解决+报警升级的能力,方便运维同学对问题的跟踪。随着报警逐渐的添加,报警的数量也逐渐在增长,也出现了报警信息被淹没的情况,为了方便运维同学对问题的跟踪,报警网关进入了下一阶段的迭代,报警接手+解决+报警升级,减少群里的重复性报警的同时又不会漏掉关键报警。

 

改造2:接入层改造

幻灯片15.JPG

上图左侧架构是Soul 2020年的架构,右侧是最新的、改造后的架构。


左侧架构中,SLB对接ACK pod及ECS;优点非常明显,不会出现大故障,缺点则是可维护性较差,导致小故障不断,客户端表现的很多异常,大部分来自接入层。


右侧是新架构改造,统一接入层,开启ingress入口模式,优势是能够轻松实现全链路的把控与追踪以及成本的优化,统一的高防与WAF接入。

 

改造3:MySQL切换PolarDB

幻灯片16.JPG

MySQL切换PolarDB是2020年,SOUL与阿里云深度合作的第一个项目,改造的背景是MySQL分库分表机制有问题,磁盘与CPU不匹配,单实例已超过阿里云SLA标准,达到了6T的数据。

 

而Soul的业务场景是读多写少,同时团队也在考虑分布式DB,这两个特性与PolarDB与Soul的匹配程度非常高,团队人员用了1个月时间,将大于1T的30组MySQL实例,全部迁移至PolarDB,迁移后无论是在费用、稳定性及使用率多个方面均正向收益。

 

对于以上的架构的改造,对于Soul来说,不一定是最好的,但却是最实用的、短期内可以支撑业务的高速迭代方案。

 

 

四、未来方向


幻灯片18.JPG


最后,分享一下Soul在2022要做的几件事情:


1、继续探索云上能力。对于Soul这样的中小型公司,底层技术能力部分其实可以依赖公有云,特别是Soul在做多方向试探的业务场景,可以借助公共云的帮助实现自有业务迭代。


2、私有的管理方式。对于公有云的基础能力,加上自定义的管理和接入使用方式,完全能够助力业务的快速迭代。例如RDS、Redis,可以把它当作一个实例;ECS则可以看作是一台物理机,通过这样的使用方式,来去掉IaaS层的压力。


3、产品的PaaS化。Soul团队也将深度学习阿里云的产品思维,将自有的PaaS产品做得更加产品化。

最后的最后,我希望致敬每一位运维人,致敬我们平凡中的不平凡。


点击大会官网,查看尤首智在峰会上的精彩演讲视频。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
92 2
|
4月前
|
运维 监控 Devops
DevOps文化下的企业运维转型
【8月更文挑战第22天】在数字化转型的浪潮中,DevOps不仅仅是一种技术实践,更是一种企业文化。本文将探讨如何在DevOps文化的引导下,实现企业运维的高效转型,包括理念更新、流程优化和团队协作等方面。我们将一起思考如何打破传统壁垒,构建一个更加灵活、高效和协同的运维体系,以应对不断变化的市场和技术挑战。
63 1
|
20天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
42 4
|
2月前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
2月前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
3月前
|
运维 Cloud Native Devops
云原生架构的崛起与实践云原生架构是一种通过容器化、微服务和DevOps等技术手段,帮助应用系统实现敏捷部署、弹性扩展和高效运维的技术理念。本文将探讨云原生的概念、核心技术以及其在企业中的应用实践,揭示云原生如何成为现代软件开发和运营的主流方式。##
云原生架构是现代IT领域的一场革命,它依托于容器化、微服务和DevOps等核心技术,旨在解决传统架构在应对复杂业务需求时的不足。通过采用云原生方法,企业可以实现敏捷部署、弹性扩展和高效运维,从而大幅提升开发效率和系统可靠性。本文详细阐述了云原生的核心概念、主要技术和实际应用案例,并探讨了企业在实施云原生过程中的挑战与解决方案。无论是正在转型的传统企业,还是寻求创新的互联网企业,云原生都提供了一条实现高效能、高灵活性和高可靠性的技术路径。 ##
230 3
|
3月前
|
运维 监控 安全
高效运维管理:提升企业IT系统稳定性与性能
在当今信息化时代,高效的运维管理对于企业IT系统的稳定性和性能至关重要。本文将探讨如何通过优化运维流程、引入自动化工具和建立完善的监控体系等措施,实现高效运维管理,从而提升企业的核心竞争力。
|
4月前
|
运维 安全 Devops
云计算时代下的企业运维变革
【8月更文挑战第10天】随着云计算技术的飞速发展,企业运维管理正经历着前所未有的变革。本文将深入探讨云计算如何重塑企业运维的方方面面,从基础设施的虚拟化到自动化工具的应用,再到DevOps文化的兴起,以及这一切如何影响企业的业务流程和市场竞争力。我们将一同见证,在这个数字化加速的时代,企业如何在云的浪潮中乘风破浪,实现运维的高效、灵活与创新。
59 10
|
4月前
|
运维 监控 安全
运维自动化:提升企业效率的关键策略
【8月更文挑战第12天】在数字化时代,企业面临着日益复杂的技术挑战。传统的手动运维方式已无法满足现代企业的需求,而自动化运维成为了解决这一难题的钥匙。本文将深入探讨自动化运维的核心价值、实现方法及其对企业运营效率的深远影响,旨在为读者提供一套清晰的自动化运维实施框架和效益分析。
|
4月前
|
人工智能 运维 Prometheus
构建高效自动化运维体系:打破运维困境的震撼之举,点燃企业发展的超级引擎!
【8月更文挑战第7天】《构建高效自动化运维体系的实践与思考》
71 4

热门文章

最新文章