【229秒 -> 69秒】部署时间缩短69%,ICBU商家技术部应用部署治理实践

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 部署时长不仅影响线上问题的解决恢复能力,也严重影响了我们日常的开发效率。本文记录了作者部署时的一些提效手段和最终的效果。

一、概述


1.1.背景

随着集团安全生产规范,需要达到1,5,10标准(1分钟响应,5分钟定位,10分钟解决),并且故障在5分钟内解决可以降一级。


团队应用部署时长平均接近3分钟,一些历史较久的老应用甚至会突破5分钟,部署时长不仅影响我们线上问题的解决恢复能力,也严重影响了我们日常的开发效率。


1.2.术语与缩写解释

image.png


1.3.构建部署流程耗时分布

应用拉上部署流程,会经历编译期和部署期两个大模块,其中还分若干个子步骤。部署耗时的时间统计,是从创建容器开始,到应用自检结束。整个流程在代码编译、镜像构建、暂停老容器、启动应用等多个模块都可以进行优化,本篇着重对部署耗时进行深入分析,并以omega为样板间进行打造,提升应用的部署效率。

image.png

二、应用部署现状一览

这是omega应用1月份预发环境的部署启动时长,平均在229秒,预发环境防单点问题一般会部署2台机器,那omega应用平均每部署一次预发环境就需要7~8分钟,接下来我们来看看这229秒有哪些是可以进行优化的。

image.png

三、部署提效手段


3.1.应用启动日志分析

每个应用差异较大,这里以omega应用为例,提供一个分析的视角供参考。

这一步是最直接最有效的,应用越老,不合理内容往往越多。分析应用的启动日志,理解并解释每一行启动日志的背景和含义,看是否有效,是否必要,能否下线,能否优化。


3.1.1.下线liaoyuan中间件


traceId:2024-03-05 18:02:04,957 INFO Loading XML bean definitions from class path resource [platform/liaoyuan.xml]

omega应用中引入了liaoyuan中间件,用于查询相关菜鸟地址信息,liaoyuan启动耗时是比较多的。经分析发现,omega引入liaoyuan本质上只用在了一个接口上,而这个接口也只有一个上游方,并且请求的QPS流量非常低,如果能将这个去掉,则可以下线整个liaoyuan模块。


经排查,neptunes调了omega的这个接口,但代码中并没有用到该接口的返回值,所以推进neptunes的调用下线,最终在2月27完成了对接口的停止调用,下线omega的liaoyuan模块。

image.png

3.1.2.没找到任何后缀名为“.ear”、“.spring”或“.war”的包

image.png

启动日志中发现有很多这样的日志,并且类路径带notify,但omega已经把notify全部下线完毕。


原因是项目中还存在NotifyManagerBean对象,并调到了它的init方法,就会检查notify的初始化检测,还有一些文件系统的恢复等。一种可以去除所有NotifyManagerBean对象的(前提是所有notify已下线),或者设置下 NotifyManagerBean#setPreInitializeReliableAsynSendManager(false) 这个可以确保不使用可靠异步发送 NotifyManagerBean#asynSendMessage。



image.png

3.1.3.doom初始化失败!

「doom启动失败,请检查启动参数是否正确配置」从启动日志看,前人在omega上可能接过doom模块,但因为各种原因没有完全接入。当下无doom相关使用需求,这里先移除doom相关模块。

image.png

3.1.4.No appenders could be found for logger

image.png

druid默认用得是log4j,但我们工程统一使用的是slf4j+logback,导致无相应log4j配置文件,而druid本身也支持切换日志组件,这里可以替换为slf4j。


在本地启动需要加上vm启动参数 -Ddruid.logType=slf4j

image.png

3.1.5.下线AutoConfig模块


AutoConfig是一个管理应用配置的组件,是webx时代的产物,如今已暂停维护,并且有多个替换产品。


omega已将autoconfig全部迁移至diamond管理,理论上已经不再需要antoconfig。但担心梳理有遗漏,这次暂不做改动,待详细梳理后再做确认。


3.2.应用启动诊断

由ICBU的交易平台团队(砺豪、如驰)和ICBU架构团队共同做了应用启动优化治理平台,可以支持应用启动数据采集插件、应用启动详细数据报表、自动诊断/自动推荐解决方案等,是一个针对应用部署启动优化的平台。借助这个平台。可以帮我们发现更多应用在启动过程中的优化点刑天平台 — 应用启动速度优化一站式解决方案


3.2.1.aspectjrt 包版本过低导致启动耗时慢


org.springframework.aop.aspectj..AspectJExpressionPointcut方法名:matches总时长=6014ms -- 作者:焉漪 aspectjrt包版本低

aspectjrt是AspectJ框架的一部分,是一个用于实现面向切面编程(AOP)的工具,在低版本存在启动耗时较高的问题aspectjrt 包版本过低导致启动耗时慢,这里我们按推荐升级到指定版本。


  • aspectjrt.jar包主要是提供运行时的一些注解,静态方法等内容。
  • aspectjweaverjar包主要是提供了一个java agent用于在类加载期间织入切面(Load time weaving),并且提供了对切面语法的相关处理等基础方法,供ajc使用或者供第三方开发使用。

image.png

3.2.2.不存在的HsfConsumer

HSF不存在 com.ali...XXX....XXXInterface:1.0.0 -- 作者:焉漪 HSF不存在

HSFProvider下线了但其他应用中配置该HSFConsumer没下线,这种case在老应用的存在比较多,应用启动平台帮我们诊断出了不存在的HSF,为防止意外可以到HSFOPS上搜索一下,确认完后这里逐项进行去除,减少HSFConsumer的创建HSF 服务不存在的几种处理方式

image.png


3.3.启动数据报表

除了显而易见能诊断出的问题,应用启动优化平台中还帮我们列出了整体的启动数据报表,可以有针对性的进行治理和优化。

3.3.1.RPC初始化注册失败

image.png

经验证,这些注册失败的,HSFprovider都已经下线,这里将这些已经不存在provider的consumer进行删除。

image.png

3.3.2.SpringBean初始化耗时详情

image.png

所有springbean的加载耗时都有记录,其中x.x.x.x.UserCacheService这个bean初始化时间很长,代码分析后发现这个bean并没有被工程所使用,这里将该bean的声明进行删除。

image.png

x.x.x.x.Mysql、x.x.x.x.Manager、x.x.x.x.CacheManager等,为mysql、TDDL、myBatis等相关bean,耗时较多,但不易优化。特别是针对tddl分库分表,库实例表实例较多,整体耗时也相应增加。


3.3.3.Spring Bean 异步化创建


async-bean-startup-starter是ICBU交易团队砺豪、如驰同学开发的一款Spring Bean异步化创建组件。若发现有部分bean创建耗时较长,并且该bean不在启动过程中需要,可以考虑配置为异步化。


实在不知道该如何优化,就看看能不能做成异步,可使用 官方的异步化starter  -- 应用启动优化治理平台

这里不盲目使用异步化,首先考虑的是如何降低bean的创建耗时,以及该bean是否需要存在,若实在无法优化,并且以及该bean的使用场景不在启动过程中依赖,则可以尝试异步化组件。


3.3.4.CBU代码迁移


在B2B时代,omega是CBU和ICBU共用的应用。随着BU、BG的拆分,CBU团队完成了迁移不再依赖omega,但流量迁走了,代码一直还在。部分bean虽然不会使用,但一直在创建,同样也包括它直接间接依赖进来的二方库等。


3.4.启动脚本诊断


项目构建完后进入启动阶段,本质上是调用应用中配置在docker-config中的相关sh脚本文件进行启动,若脚本文件存在不合理配置,也会影响应用部署时长。


3.4.1.offline_hsf重复执行

SHELL脚本:start.sh 二级脚本:appctl.sh 三级脚本:null 方法名:offline_hsf 总时长=40s -- 作者:焉漪 offline_hsf重复执行

image.png

可以看到执行应用暂停了调了offline_hsf执行了40s,在应用启动时又调了offline_hsf,又执行了40s,offline_hsf耗时较久且重复执行,治理参考应用启动Shell脚本观测官方文档(持续更新)


Note:有的应用dockerfile在打镜像的时候,会把bin文件夹下的脚本文件全部打进去,这样改完脚本文件后,需要重新构建镜像,不然会不生效。校验办法是到机器上打开对应对应,看改动是否生效。

image.png

瞬间应用启动有质的上升!!

image.png

四、最终效果

4.1.部署提速69%

废话不多说,咱们直接上结果。omega的部署启动时长,优化前在229秒,优化后在69.71秒,加速提效69%。

image.png



来源  |  阿里云开发者公众号
作者  |  
率鸽



相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
运维 监控 安全
阿里巴巴DevOps实践指南(十九)| 监管控一体化运维
阿里巴巴应用运维监管控一体化的建设随着业务形态和技术架构还在不断地探索和发展,本文主要介绍了应用运维监管控一体化建设的背景和思路。我们以应用为中心,从应用监控管角度出发,通过全视角监控实时掌握应用的运行状态,通过高效发布部署和灵活的运维编排对应用进行安全变更,通过智能化运维和安全防护实现应用的高级防护。
阿里巴巴DevOps实践指南(十九)| 监管控一体化运维
|
消息中间件 数据采集 运维
正式上线!阿里云医保全平台智能运维方案
正式上线!阿里云医保全平台智能运维方案
529 0
|
弹性计算 Cloud Native 容灾
《2023云原生实战案例集》——04 互联网——小迈科技 基于SAE打通CI/CD,提升研发效能,缩短上线时间
《2023云原生实战案例集》——04 互联网——小迈科技 基于SAE打通CI/CD,提升研发效能,缩短上线时间
|
弹性计算 运维 自然语言处理
《2023云原生实战案例集》——04 互联网——心动网络 (TapTap)基于SAE实现简单运维、不停机发布和分钟级上线
《2023云原生实战案例集》——04 互联网——心动网络 (TapTap)基于SAE实现简单运维、不停机发布和分钟级上线
|
运维 数据可视化 开发者
束水攻沙——持续加快产品交付速度| 学习笔记
快速学习束水攻沙——持续加快产品交付速度
束水攻沙——持续加快产品交付速度| 学习笔记
|
运维 监控 小程序
2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变
InfoQ 获悉,近日,博睿数据联合艾瑞咨询共同发布了《2022企业应用运维管理指标体系白皮书》(以下简称《白皮书》)。 《白皮书》从企业 IT 运维的内涵以及在当前数字经济发展的大环境下企业 IT 运维工作在技术、战略、组织架构等方面面临的变化和问题做了详细说明,并展示了一种以业务和应用为着眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了详细说明。
1693 0
2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变
|
移动开发 运维 监控
mPaas研发流程和线上运维介绍
金融级移动开发平台 mPaaS(Mobile PaaS)为 App 开发、测试、运营及运维提供云到端的一站式解决方案,能有效降低技术门槛、减少研发成本、提升开发效率,协助企业快速搭建稳定高质量的移动应用。在我们日常运维过程中发现,大部分用户对蚂蚁的研发流程比较感兴趣,特别是在上百个开发者同时在一个app的环境内进行高效开发,技术选型、研发流程还有线上运维是怎么做的,成为大家关注的重点。以下分享我的一些理解。
431 0
mPaas研发流程和线上运维介绍
|
测试技术 Android开发 iOS开发
阿里云一站式专家测试服务,护航APP线上质量,发版无忧!
客户只需提交测试需求,从用例设计、脚本录制、海量机型测试、整理测试结果、48小时输出专家测试报告均由阿里云EMAS测试专家一站式服务完成。限时活动,9月30日截止!1999元可享专家极致服务,Android TOP100款或iOS TOP50款,规格二选一!包含10min脚本+10min Ripper智能遍历,测试全面覆盖无死角。
阿里云一站式专家测试服务,护航APP线上质量,发版无忧!
|
存储 消息中间件 缓存
SREWorks v1.2 版本发布 | 运维市场能力发布
在v1.1版本发布之后,SREWorks团队开始了常态化的功能版本迭代,v1.1提供了组件插拔能力,v1.2更进一步,将会发布规划已久的运维市场,助力团队构筑运维生态,也会发布诸多企业用户关注的纯内网源码构建方案。
|
新零售 运维 Prometheus
活动预约|阿里云如何搭建云服务 SRE 与可观测体系
本次峰会邀请到友邦人寿、爱福路 F6 汽车科技、阿里云等不同行业头部企业的应用架构负责人、SRE 负责人详细解读企业 IT / SRE 团队如何借助可观测能力提升运维效能,打造更优质、更智能的用户体验,更轻松地实现数字化转型与创新
活动预约|阿里云如何搭建云服务 SRE 与可观测体系

热门文章

最新文章