《2023云原生实战案例集》——04 互联网——站酷 基于ASM解决多语言技术栈下服务管理难题,实现运维提效

本文涉及的产品
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
应用实时监控服务-应用监控,每月50GB免费额度
函数计算FC,每月15万CU 3个月
简介: 《2023云原生实战案例集》——04 互联网——站酷 基于ASM解决多语言技术栈下服务管理难题,实现运维提效

image.png 

客户简介

站酷(ZCOOL)深耕设计领域多年,聚集了 1500万设计师、摄影师、插画师、艺术家、 创意人,在设计创意群体中具有一定的影响力与号召力。业务使用了 Node.js. Java. PHP等多种技术栈进行开发,开发、运维协作成本高。

客户痛点

多语言、多集群服务统一纳管难:站酷面向互联网用户,提供站酷网、站酷海洛、站 酷学习等各项服务,这些业务使用了 Node.js. Java. PHP等多种技术栈进行开发, 并部署在多个Kubernetes集群中,如何通过统一的业务中台统一纳管这些业务是一 个很大的技术挑战。

•  可观测体系构建难:对于上述的业务架构而言,很难对于不同的应用服务实现统一的 可观测体系、进行服务指标的统一实时监控。

•  服务治理自动化集成难:由于站酷建设了统一的业务中台,对于服务的部署、维护、 治理等有着较强的自动化配置需求,对于多集群服务治理的场景需要一定的自动化集 成能力。

方案亮点

•  高效管理多集群、多语言下的应用服务管理:通过使用服务网格ASM,对多集群、多 形态、多语言服务的统一纳管成为了非常简单的工作。托管式服务网格ASM在成为多 种异构类型计算服务统一管理的基础设施中,提供了统一的流量管理能力、统一的服 务安全能力、统一的服务可观测性能力、以及实现统一的代理可扩展能力,以此构筑 企业级能力。

•  南北向与东西向流量统一治理:在社区Istio的网关基础上,ASM企业版提供了更多 的企业级高级特性,包括指标伸缩HPA)、基于InteLMuLtiBuffer技术的软硬结合性 能优化、网关无损升级、SLB优雅下线等,使网关真正达到了生产可用级别,可以很 好地支持各种企业级服务。

•  ASM可观测中心实现全业务的实时监控:在生产环境中,站酷主要利用了日志中心进 行了网格可观测性的建设。ASM通过与日志服务集成提供网关与网格内Sidecar日志 的自动采集,同时针对网关与网格内Sidecar访问日志分别提供了日志仪表盘,提供 包括请求错误率、P95延迟等实用指标监控,实现了对多集群异构应用的统一可观测 性。

•  插件市场完善:服务网格ASM在插件拓展中心中提供了即插即用的插件市场。针对各 种实际业务场景,提供了多种即插即用式插件,经过简单几个参数的配置即可快速启 用数据面Sidecar的各种拓展能力。通过对ASM插件市场的利用,站酷在很短时间内 就解决了业务迁移中遇到的问题。

•  支持自动化API集成:作为阿里云云产品,服务网格ASM除了通用的。penAPI/SDK 集成方式之外,也提供了其它多样化的产品功能模块集成方式,包括Kube APITerraform等,产品所提供的各大功能模块不仅能够通过ASM控制台进行访问,也能 以API的形式集成进厂商的自有业务中台之中,助力网格运维自动化。

建设成果

客户通过ASM高效解决了多语言技术栈情况下多集群的应用服务管理难题,运维效率提 升40% ;并借助ASM统一流量治理、全业务的实时观测能力,大幅提升了线上业务稳定 性。

相关产品

务网格ASM

器服务ACK

用实时监控服务ARMS

相关文章
|
2月前
|
消息中间件 存储 NoSQL
RocketMQ实战—6.生产优化及运维方案
本文围绕RocketMQ集群的使用与优化,详细探讨了六个关键问题。首先,介绍了如何通过ACL配置实现RocketMQ集群的权限控制,防止不同团队间误用Topic。其次,讲解了消息轨迹功能的开启与追踪流程,帮助定位和排查问题。接着,分析了百万消息积压的处理方法,包括直接丢弃、扩容消费者或通过新Topic间接扩容等策略。此外,提出了针对RocketMQ集群崩溃的金融级高可用方案,确保消息不丢失。同时,讨论了为RocketMQ增加限流功能的重要性及实现方式,以提升系统稳定性。最后,分享了从Kafka迁移到RocketMQ的双写双读方案,确保数据一致性与平稳过渡。
|
4月前
|
运维 监控 安全
ARMS 助力假面科技研发运维提效,保障极致游戏体验
阿里云 ARMS 团队助力假面科技游戏业务实现全业务、全场景的监控和告警,全面提升监控覆盖率和告警有效率,其中告警平均恢复耗时(MTTR)缩短 50% 以上。
199 46
|
3月前
|
运维 安全 网络安全
【运维实战分享】轻松搞定 SSL 证书管理,告别证书繁琐操作
Spug证书平台的最大亮点之一就是其极为简化的证书申请流程,无论是新手还是经验丰富的运维专家,都可以在几分钟内轻松完成证书的申请,通过微信扫码直接登录申请,无需复杂注册,整个过程既方便又快捷。
130 17
|
3月前
|
运维 监控 安全
ARMS 助力假面科技研发运维提效,保障极致游戏体验
ARMS 助力假面科技研发运维提效,保障极致游戏体验
|
4月前
|
Cloud Native 安全 Serverless
云原生应用实战:基于阿里云Serverless的API服务开发与部署
随着云计算的发展,Serverless架构日益流行。阿里云函数计算(Function Compute)作为Serverless服务,让开发者无需管理服务器即可运行代码,按需付费,简化开发运维流程。本文从零开始,介绍如何使用阿里云函数计算开发简单的API服务,并探讨其核心优势与最佳实践。通过Python示例,演示创建、部署及优化API的过程,涵盖环境准备、代码实现、性能优化和安全管理等内容,帮助读者快速上手Serverless开发。
|
3月前
|
Prometheus 运维 监控
运维实战来了!如何构建适用于YashanDB的Prometheus Exporter
今天分享的是构建YashanDB Exporter的核心设计理念和关键方法,希望也能为你的运维实战加分!
|
4月前
|
运维 监控 安全
ARMS 助力假面科技研发运维提效,保障极致游戏体验
ARMS 助力假面科技研发运维提效,保障极致游戏体验
|
5月前
|
运维 自然语言处理 Ubuntu
解锁高效运维新姿势!操作系统智能助手OS Copilot新功能实战测评
阿里云OS Copilot经过多轮迭代,现已支持多端操作系统(包括Ubuntu、CentOS、Anolis OS等)及aarch64架构,极大扩展了其适用范围。新特性包括阿里云CLI调用、系统运维及调优工具的直接调用、Agent模式实装以及复杂任务处理能力。这些更新显著提升了用户体验和效率,特别是在处理紧急情况时,OS Copilot能快速查找并执行命令,节省大量时间和精力。此外,通过自然语言交互,用户可以轻松完成如系统健康检查、文件操作及日志分析等任务。总之,OS Copilot已从内测时的辅助工具进化为合格的贴身管家,极大地简化了日常运维工作。
|
5月前
|
人工智能 运维 Linux
AI驱动的操作系统服务体验:大模型时代的运维革新
AI驱动的操作系统服务体验:大模型时代的运维革新
128 5
|
6月前
|
存储 分布式计算 Hadoop
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级
Dataphin V4.4版本引入了多项核心升级,包括级联发布、元数据采集扩展、数据源指标上架、自定义属性管理等功能,大幅提升数据处理与资产管理效率。此外,还支持Hadoop集群管理、跨Schema数据读取、实时集成目标端支持Hudi及MaxCompute delta等技术,进一步优化用户体验。
688 3
【产品升级】Dataphin V4.4重磅发布:开发运维提效、指标全生命周期管理、智能元数据生成再升级

相关产品

  • 服务网格