ARMS3.0 助力安利搭建一体化运维监控平台

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
函数计算FC,每月15万CU 3个月
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 本篇内容分享了ARMS3.0 助力安利搭建一体化运维监控平台。

分享人:Gauss Ye 安利(中国)SRE团队技术专家

正文:

本篇内容将通过个部分来介绍ARMS3.0 助力安利搭建一体化运维监控平台。

一、Why:状况与挑战

二、How:转型之路

三、What:落地效果

image.png

一、Why:状况与挑战

作为安利核心的零售业务字化时代的背景下,面临着很大的挑战传统的零售行业场景单一,用户群体单一,缺乏灵活性现在数字化趋势包括社交媒体直播私域流量以及自媒体。进入社交电商模式,我们可以充分进入互联网的社交经济,充分利用多种数字化工具赋能企业大大提升系统的容量新功能快速上线,可以利用大数据人工智能能力帮助我们做好数字化运营。

image.png

安利的转型之路,充满坎坷和挑战。早期我们购买一个商业套件,部署在数据中心。希望可以帮助我们解决整个技术底座的问题。随着我们的业务增长以及用户的增长,这一套配置已经无法满足客户需求。我们进行促销或者高并发秒杀场景,系统经常会挂掉。

image.png

二、How:转型之路

经过咨询国内的头部互联网厂商之后,我们需要对技术底座进行升级新一代的技术底座一定要满足三个方面第一新渠道。主要是互联网社交平台第二,新容量支持海量用户的上线第三,新市场我们希望成功之后,能快速部署到全球的其他地区。除此之外,我们还希望平台能够快速稳定,灵活的支撑我们的业务。

image.png

所以基于以上思考,我们希望底座平台能够基于阿里云的计算服务,按需使用弹性伸缩以及中间件的能力,实现全面上云,从单体应用走向微服务。服务架构扩展更容易。同时,我们还要借鉴阿里电商方面的最佳实践,满足我们业务在秒杀一些高并发场景的需求

image.png

微服务化带来常多的的好处,但是它也会把整个架构的复杂进行微服务之后我们有30多个微服务,日常的生产环境超过200个容器,促销的时候,可以到达3000个容器。服务容器之间的调用关系变得相当的复杂。微服务化后服务的粒度细化,复杂度高,驾驭它们需要做到架构可感知、可见、可控。

image.png

三、What:落地效果

我们的开发人员主要以java为主。所以我们使用阿里Spring Cloud无缝地成到阿里云的相关服务,比如注册发现管理配置分布式调度等等。Spring Cloud Alibaba 可以提供微服务注册、熔断、限流降级等能力。

image.png

对于微服务的部署以及行环境容器编排是不错的选择。所以我们选择了阿里的ACK作为我们的容器编排平台我们不用管理和维护K8S,同时可以减少人力成本实现整个应用生命周期管理标准化。

image.png

我们对于全栈全链路监控系统设计主要有三个要求,即高效,精准,全面我们的全栈主要包含四部分,阿里云产品微服务应用核心业务链路我们的前端基于这些需求我们的网络与接入层部署了dns,dcdn,eip,共享带宽等服务。在微服务方面,我们有ARMS监控,EDAS,AHAS限流熔断降级等能力。在存储方面,我们配备了ecs,oss,ack等功能。从而完成了全栈全链路监控系统设计。

image.png

传统定位方式步骤非常麻烦但是ARMS监控实现了白屏自动化。相关指标可以全部采集出来。比如历史数据第三方系统的对接,CPU内存信息等等。ARMS的根因定位实现了分钟级问题定位的能力。

image.png

阿里云的Prometheus不光可以开箱即用的而且无缝集成阿里其他能力。它的性能调优,自动扩展也非常优秀我们基于Prometheus和Grafana做了统一监控大盘。包含业务相关应用层、容器层、云服务等监控数据。实现一屏展示,洞察全局。

 

 

相关文章
|
4月前
|
运维 Kubernetes 监控
|
5月前
|
弹性计算 运维 自然语言处理
属于Basis运维的、在Linux平台上运行的大模型测评 OS Copilot智能助手测评
OS Copilot是阿里云为Linux打造的智能操作系统助手,基于大模型,助用户进行自然语言问答、命令执行和系统运维。它简化了Linux操作,适合新手和运维人员。测评者作为IT架构师,发现OS Copilot使非技术背景人员也能操作Linux,接入命令可在官方文档找到。测试显示,通过"co"命令可与OS Copilot交互,实现生产任务融合。该工具提高了工作效率,尤其是对于遗忘具体命令时,非常有帮助。文档清晰,适合生产环境使用,值得进一步探索。
107 0
|
6月前
|
开发框架 运维 前端开发
构建一体化运维平台的八大功能
【6月更文挑战第6天】构建一体化运维平台的关键8个基本功能。
|
6月前
|
设计模式 运维 监控
运维一体化平台的能力要素
【6月更文挑战第7天】一体化运维平台的重要性,旨在建立覆盖运维全生命周期的统一平台,提升效率,保障业务连续性,实现数字化运维管理。
|
7月前
|
SQL 运维 前端开发
一款现代化、高颜值的一站式智能运维管理平台
orion-ops-pro —— 一款现代化、高颜值的一站式智能运维管理平台,集资产管理、资产授权、批量执行、计划任务、WebShell、WebSftp、角色管理、系统管理等功能于一体,致力于简化运维团队的治理工作。
90 1
一款现代化、高颜值的一站式智能运维管理平台
|
7月前
|
弹性计算 运维 监控
【阿里云云原生专栏】自动化运维的艺术:阿里云云原生平台的自动化运维工具集
【5月更文挑战第28天】阿里云云原生平台提供全面的自动化运维工具,涵盖监控告警、资源管理、部署更新、故障自愈、安全管理和数据备份等方面,简化运维工作,增强系统稳定性。通过智能工具集,运维人员能专注于业务优化,实现高效运维,为企业数字化转型提供有力支持。
257 3
|
7月前
|
运维 监控 druid
平台组成-运维监控模块
运维监控模块关注服务器、应用、数据库及Minio等状态,包括自研和开源组件。
|
7月前
|
运维 前端开发 JavaScript
运维管理平台实现与学习心得
运维管理平台实现与学习心得
|
7月前
|
消息中间件 运维 前端开发
SaaS运维平台+多医院入驻+强大的电子病历编辑器(云HIS)
后台:Java+Spring,SpringBoot,SpringMVC,SpringSecurity,MyBatisPlus,等
152 0
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
65 4

相关产品

  • 应用实时监控服务
  • 下一篇
    DataWorks