ARMS3.0 助力安利搭建一体化运维监控平台

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 本篇内容分享了ARMS3.0 助力安利搭建一体化运维监控平台。

分享人:Gauss Ye 安利(中国)SRE团队技术专家

正文:

本篇内容将通过个部分来介绍ARMS3.0 助力安利搭建一体化运维监控平台。

一、Why:状况与挑战

二、How:转型之路

三、What:落地效果

image.png

一、Why:状况与挑战

作为安利核心的零售业务字化时代的背景下,面临着很大的挑战传统的零售行业场景单一,用户群体单一,缺乏灵活性现在数字化趋势包括社交媒体直播私域流量以及自媒体。进入社交电商模式,我们可以充分进入互联网的社交经济,充分利用多种数字化工具赋能企业大大提升系统的容量新功能快速上线,可以利用大数据人工智能能力帮助我们做好数字化运营。

image.png

安利的转型之路,充满坎坷和挑战。早期我们购买一个商业套件,部署在数据中心。希望可以帮助我们解决整个技术底座的问题。随着我们的业务增长以及用户的增长,这一套配置已经无法满足客户需求。我们进行促销或者高并发秒杀场景,系统经常会挂掉。

image.png

二、How:转型之路

经过咨询国内的头部互联网厂商之后,我们需要对技术底座进行升级新一代的技术底座一定要满足三个方面第一新渠道。主要是互联网社交平台第二,新容量支持海量用户的上线第三,新市场我们希望成功之后,能快速部署到全球的其他地区。除此之外,我们还希望平台能够快速稳定,灵活的支撑我们的业务。

image.png

所以基于以上思考,我们希望底座平台能够基于阿里云的计算服务,按需使用弹性伸缩以及中间件的能力,实现全面上云,从单体应用走向微服务。服务架构扩展更容易。同时,我们还要借鉴阿里电商方面的最佳实践,满足我们业务在秒杀一些高并发场景的需求

image.png

微服务化带来常多的的好处,但是它也会把整个架构的复杂进行微服务之后我们有30多个微服务,日常的生产环境超过200个容器,促销的时候,可以到达3000个容器。服务容器之间的调用关系变得相当的复杂。微服务化后服务的粒度细化,复杂度高,驾驭它们需要做到架构可感知、可见、可控。

image.png

三、What:落地效果

我们的开发人员主要以java为主。所以我们使用阿里Spring Cloud无缝地成到阿里云的相关服务,比如注册发现管理配置分布式调度等等。Spring Cloud Alibaba 可以提供微服务注册、熔断、限流降级等能力。

image.png

对于微服务的部署以及行环境容器编排是不错的选择。所以我们选择了阿里的ACK作为我们的容器编排平台我们不用管理和维护K8S,同时可以减少人力成本实现整个应用生命周期管理标准化。

image.png

我们对于全栈全链路监控系统设计主要有三个要求,即高效,精准,全面我们的全栈主要包含四部分,阿里云产品微服务应用核心业务链路我们的前端基于这些需求我们的网络与接入层部署了dns,dcdn,eip,共享带宽等服务。在微服务方面,我们有ARMS监控,EDAS,AHAS限流熔断降级等能力。在存储方面,我们配备了ecs,oss,ack等功能。从而完成了全栈全链路监控系统设计。

image.png

传统定位方式步骤非常麻烦但是ARMS监控实现了白屏自动化。相关指标可以全部采集出来。比如历史数据第三方系统的对接,CPU内存信息等等。ARMS的根因定位实现了分钟级问题定位的能力。

image.png

阿里云的Prometheus不光可以开箱即用的而且无缝集成阿里其他能力。它的性能调优,自动扩展也非常优秀我们基于Prometheus和Grafana做了统一监控大盘。包含业务相关应用层、容器层、云服务等监控数据。实现一屏展示,洞察全局。

 

 

相关文章
|
7月前
|
运维 监控 安全
ARMS 助力假面科技研发运维提效,保障极致游戏体验
阿里云 ARMS 团队助力假面科技游戏业务实现全业务、全场景的监控和告警,全面提升监控覆盖率和告警有效率,其中告警平均恢复耗时(MTTR)缩短 50% 以上。
260 91
|
3月前
|
运维 监控 Linux
WGCLOUD运维平台的分布式计划任务功能介绍
WGCLOUD是一款免费开源的运维监控平台,支持主机与服务器性能监控,具备实时告警和自愈功能。本文重点介绍其计划任务功能模块,可统一管理Linux和Windows主机的定时任务。相比手动配置crontab或Windows任务计划,WGCLOUD提供直观界面,通过添加cron表达式、执行指令或脚本并选择主机,即可轻松完成任务设置,大幅提升多主机任务管理效率。
|
6月前
|
存储 人工智能 运维
阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台
本文详细评测了阿里云操作系统控制台,作为一款集运维管理、智能助手和系统诊断于一体的工具,它为企业提供了高效管理云资源的解决方案。文章涵盖登录与服务开通、系统管理与实例纳管、组件管理与扩展功能、系统诊断与问题排查以及实时热点分析与性能优化等内容。通过实际操作展示,该平台显著提升了运维效率,并借助AI智能助手简化了复杂操作。建议进一步完善组件库并增强第三方兼容性,以满足更多高级运维需求。
327 2
|
6月前
|
运维 监控 安全
ARMS 助力假面科技研发运维提效,保障极致游戏体验
ARMS 助力假面科技研发运维提效,保障极致游戏体验
|
7月前
|
运维 监控 安全
ARMS 助力假面科技研发运维提效,保障极致游戏体验
ARMS 助力假面科技研发运维提效,保障极致游戏体验
|
8月前
|
运维 监控 Cloud Native
构建深度可观测、可集成的网络智能运维平台
本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。
|
开发框架 运维 前端开发
构建一体化运维平台的八大功能
【6月更文挑战第6天】构建一体化运维平台的关键8个基本功能。
|
设计模式 运维 监控
运维一体化平台的能力要素
【6月更文挑战第7天】一体化运维平台的重要性,旨在建立覆盖运维全生命周期的统一平台,提升效率,保障业务连续性,实现数字化运维管理。
|
弹性计算 运维 自然语言处理
属于Basis运维的、在Linux平台上运行的大模型测评 OS Copilot智能助手测评
OS Copilot是阿里云为Linux打造的智能操作系统助手,基于大模型,助用户进行自然语言问答、命令执行和系统运维。它简化了Linux操作,适合新手和运维人员。测评者作为IT架构师,发现OS Copilot使非技术背景人员也能操作Linux,接入命令可在官方文档找到。测试显示,通过"co"命令可与OS Copilot交互,实现生产任务融合。该工具提高了工作效率,尤其是对于遗忘具体命令时,非常有帮助。文档清晰,适合生产环境使用,值得进一步探索。
263 0

相关产品

  • 应用实时监控服务