《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【上】

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
云原生网关 MSE Higress,422元/月
简介: 《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【上】

作者:祁晓波

image.png


很多研发人员在日常工作中经常回遇到以下两个问题:竟然不可以运行,为什么?竟然可以运行,为什么?

 

因此,他们非常期望可观测能够提供解决问题的思路。

image.png

2017年,推特工程师Cindy发表了一篇名为《Monitoring and Observability》的文章,首次将可观测性这一词汇带入开发者视野,通过半开玩笑的方式调侃了关于可观测性和监控的区别。在软件产品和服务领域,监控能够告知我们服务究竟是否能正常运行,而可观测性可以告诉我们为为什么服务没有正常运行。

 

从谷歌趋势图中可以看到,可观测性的普及率呈现逐年上升的态势,它也被视为系统的属性,将逐步成为系统在做开发设计过程中就需要具备的特性。

image.png

2020年后,可观测的搜索趋势出现井喷,很大一部分原因是SRE站点可靠性工程逐步普及,国内大厂纷纷设立相关岗位和对应招聘指标,使得可观测性在国内也得到了较多关注。这也意味着越来越多的基础服务面临了稳定性挑战,而破解稳定性挑战的重要手段就在于提供可观测性。

 

上图左下角为可观测性的全球搜索趋势,其中中国的搜索热度颇高。

image.png

可观测性是由匈牙利工程师提出的一个数学概念,指系统可以由外部输出推断其内部状态的程度。换句话说,可观测性应当可以从数据产出中分析出其内部的具体运转细节。


1. 难点与挑战

image.png

F6汽车科技是一家专注于汽车后市场信息化建设的互联网平台公司,目前处于行业内头部位置。随着业务蓬勃发展,F6支持的商户数目短时间内暴增数十倍,同时也逐步开展了面向技师等C端场景的业务,比如Vin码解析、数据查询等,对于稳定性的要求显著提高。

image.png

康威定律是IT史上对整个组织架构进行微服务拆分的指导性定律。任何组织在设计系统过程中都是组织架构的翻版,随着业务膨胀,康威定律作用会导致设计微服务时拆分方式趋同于组织架构,业务增长会导致部门拆分,后续设计微服务时也会十分靠近组织架构。哪怕前期组织架构和微服务拆分不一致,后面微服务也会逐步妥协于组织架构。

 

虽然微服务和组织架构趋同使得系统沟通效率较高,但是这也带来了很多分布式的系统问题。比如微服务之间的交互,没有人能够对服务有整体性、全局性的了解,研发人员最直接的期望就是在分布式系统中也能有单机系统的排查效率,这促使我们需要将系统以服务器为中心的思路转变为以调用链为中心的思路。

image.png

F6最早进行业务开发时采用烟囱式的建设。单体应用比较简单,但是它在扩展性和可维护性上存在很多问题。比如所有研发都在系统上进行,代码冲突较多,什么时间点能发布,发布会造成多少业务量损失等皆难以明确。因此,越来越多情况导致我们需要进行微服务拆分,而微服务拆分和调用又会导致调用链十分复杂繁琐,如上图右所示,几乎无法人为分析出调用链路。

 

那么,怎么样才能尽可能降低线上排查故障的难度?


2. 可观测演进


image.png


传统的监控和微服务日志收集一般采用ELKStack进行日志收集。ELK是三个开源项目的首字母缩写,分别是Elasticsearch、Logstash和Kibana。

 

我们重度依赖ELK进行微服务日志的收集,与此同时,还使用了开源的基于ES的报警系统ElastAlert组件,主要功能是从ES中查询出匹配规则,对相关类型数据进行报警。

 image.png

上图描述了通过日志收集进行日常查询的思路。比如研发人员会通过pipeling查询线上日志,ElastAlert通过匹配规则告警获取到ES日志中发掘出来异常数据,kibana可以进行查询,也可以优先定位出系统中发生的异常。

image.png

随着业务发展,系统对日志的要求也逐步增加,比如团队非常多,需要配置各种各样的告警规则,因此我们引入了Grafana逐步替代kibana和Zabbix的查询功能。可以通过Grafana的ES插件查询对日志进行告警,然后通过alert功能完成原先ElastAlert的排除,同时可以使用Grafana做出更直观的可视化大屏进行展示。

 

除了日志外,我们也期望收集到Java应用指标,因此又引入了Zorka开源组件。Zorka和Zabbix可以简单地进行结合,可以通过Zorka将收集到的信息上报给Zabbix进行展示。而Zabbix又可以通过Grafana Zabbix插件直接输出数据,最终将整个应用大屏和看板信息都收集到Grafana界面。

image.png

Zorka的工作机制类似于通过Zabbix Java gateway的方式,通过Java Agent自动挂载到Java进程中,用于统计常见应用容器和请求数指标等,初步解决了我们对于Java进程的观测需求。

image.png

随着微服务程度不断提升,传统方式的运维成本越来越高,因此,我们启动了云原生化改造。

 

首先,云原生化的改造是K8s侧就绪探针和存活探针的编写。存活探针的编写提升了服务的自愈能力,出现了 OOM 后服务能够自动恢复、启动新节点,保证数据服务正常提供。

 

除了K8s外,我们还引入了Prometheus和ARMS应用监控。Prometheus作为CNCF仅次于K8s的2号项目,在整个metrics领域形成了足够的话语权;ARMS应用监控作为阿里云商业APM的拳头产品,使我们能够结合云原生的方式,实现研发无感,无需进行任何代码改动即可拥有trace功能。更重要的是,阿里云团队能够保持持续迭代,支持越来越多中间件,因此我们认为它必定会成为诊断利器。

image.png

进行云原生化改造后,监控模型也发生了改变。最早的监控模型是push,Zorka每次发布都在同一台机器上,因此它有固定的host;而上云后,容器化改造导致Pod不再固定,且可能会出现新的应用扩缩容等问题。因此,我们将监控模型逐步从push转换成pull模式,也更加契合Prometheus的收集模型,并逐步将Zorka从可观测体系中剥离。

 

没有使用ARMS直接收集JMX指标是因为ARMS不会覆盖线上和线下所有java应用,没有被覆盖的应用也期望有JVM数据收集功能,而ARMS成本略高。因此,出于成本的考虑,我们没有将 ARMS 作为完整接入,而是选择了JMX Exporter组件。

 

JMX Export也是Prometheus官方社区提供的exporter之一。它通过Java Agent利用Java JMX机制读取JVM信息,可以将数据直接转化成为Prometheus可以辨识的metrics格式,使Prometheus能够对其进行监控和采集,并通过Prometheus Operator注册对应的Service Moninor完成指标收集。


接下篇:https://developer.aliyun.com/article/1222699?groupCode=alisoftwaretech


相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
19天前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
1月前
|
运维 Kubernetes Cloud Native
云原生技术:容器化与微服务架构的完美结合
【10月更文挑战第37天】在数字化转型的浪潮中,云原生技术以其灵活性和高效性成为企业的新宠。本文将深入探讨云原生的核心概念,包括容器化技术和微服务架构,以及它们如何共同推动现代应用的发展。我们将通过实际代码示例,展示如何在Kubernetes集群上部署一个简单的微服务,揭示云原生技术的强大能力和未来潜力。
|
1月前
|
运维 持续交付 API
从零构建微服务架构:一次深度技术探索之旅####
【10月更文挑战第28天】 本文记录了作者在从零开始构建微服务架构过程中的深刻技术感悟,通过实战案例详细剖析了微服务设计、开发、部署及运维中的关键要点与挑战。文章首先概述了微服务架构的核心理念及其对企业IT架构转型的重要性,随后深入探讨了服务拆分策略、API网关选型、服务间通信协议选择、容器化部署(Docker+Kubernetes)、以及持续集成/持续部署(CI/CD)流程的设计与优化。最后,分享了在高并发场景下的性能调优经验与故障排查心得,旨在为读者提供一套可借鉴的微服务架构实施路径。 ####
64 3
|
16天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 11 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
28天前
|
Kubernetes Java 微服务
微服务上下线动态感知实现的技术解析
随着微服务架构的广泛应用,服务的动态管理和监控变得尤为重要。在微服务架构中,服务的上下线是一个常见的操作,如何实时感知这些变化,确保系统的稳定性和可靠性,成为了一个关键技术挑战。本文将深入探讨微服务上下线动态感知的实现方式,从技术基础、场景案例、解决思路和底层原理等多个维度进行阐述,并分别使用Java和Python进行演示介绍。
59 4
|
26天前
|
运维 Kubernetes Docker
深入理解容器化技术及其在微服务架构中的应用
深入理解容器化技术及其在微服务架构中的应用
54 1
|
5天前
|
存储 监控 供应链
微服务拆分的 “坑”:实战复盘与避坑指南
本文回顾了从2~3人初创团队到百人技术团队的成长历程,重点讨论了从传统JSP到前后端分离+SpringCloud微服务架构的演变。通过实际案例,总结了微服务拆分过程中常见的两个问题:服务拆分边界不清晰和拆分粒度过细,并提出了优化方案,将11个微服务优化为6个,提高了系统的可维护性和扩展性。
22 0
|
1月前
|
监控 Java 微服务
从零构建微服务架构:一次深度技术探索之旅####
本文作为一篇深度技术分享,引领读者踏上自底向上搭建微服务架构的征途,旨在通过实战经验剖析,揭示微服务转型背后的技术挑战与解决方案。不同于常规摘要仅概述内容,本文摘要将直接以故事化手法,简述作者从单体应用困境出发,逐步迈向微服务化的心路历程,涵盖关键决策点、技术选型考量及实践收获,激发读者对微服务架构设计与实现的浓厚兴趣。 ####
|
29天前
|
Dubbo Cloud Native 应用服务中间件
阿里云的 Dubbo 和 Nacos 深度整合,提供了高效的服务注册与发现、配置管理等关键功能,简化了微服务治理,提升了系统的灵活性和可靠性。
在云原生时代,微服务架构成为主流。阿里云的 Dubbo 和 Nacos 深度整合,提供了高效的服务注册与发现、配置管理等关键功能,简化了微服务治理,提升了系统的灵活性和可靠性。示例代码展示了如何在项目中实现两者的整合,通过 Nacos 动态调整服务状态和配置,适应多变的业务需求。
39 2
|
1月前
|
Cloud Native 云计算 Docker
云原生技术的崛起:从容器化到微服务架构
云原生技术的崛起:从容器化到微服务架构