《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【上】

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【上】

作者:祁晓波

image.png


很多研发人员在日常工作中经常回遇到以下两个问题:竟然不可以运行,为什么?竟然可以运行,为什么?

 

因此,他们非常期望可观测能够提供解决问题的思路。

image.png

2017年,推特工程师Cindy发表了一篇名为《Monitoring and Observability》的文章,首次将可观测性这一词汇带入开发者视野,通过半开玩笑的方式调侃了关于可观测性和监控的区别。在软件产品和服务领域,监控能够告知我们服务究竟是否能正常运行,而可观测性可以告诉我们为为什么服务没有正常运行。

 

从谷歌趋势图中可以看到,可观测性的普及率呈现逐年上升的态势,它也被视为系统的属性,将逐步成为系统在做开发设计过程中就需要具备的特性。

image.png

2020年后,可观测的搜索趋势出现井喷,很大一部分原因是SRE站点可靠性工程逐步普及,国内大厂纷纷设立相关岗位和对应招聘指标,使得可观测性在国内也得到了较多关注。这也意味着越来越多的基础服务面临了稳定性挑战,而破解稳定性挑战的重要手段就在于提供可观测性。

 

上图左下角为可观测性的全球搜索趋势,其中中国的搜索热度颇高。

image.png

可观测性是由匈牙利工程师提出的一个数学概念,指系统可以由外部输出推断其内部状态的程度。换句话说,可观测性应当可以从数据产出中分析出其内部的具体运转细节。


1. 难点与挑战

image.png

F6汽车科技是一家专注于汽车后市场信息化建设的互联网平台公司,目前处于行业内头部位置。随着业务蓬勃发展,F6支持的商户数目短时间内暴增数十倍,同时也逐步开展了面向技师等C端场景的业务,比如Vin码解析、数据查询等,对于稳定性的要求显著提高。

image.png

康威定律是IT史上对整个组织架构进行微服务拆分的指导性定律。任何组织在设计系统过程中都是组织架构的翻版,随着业务膨胀,康威定律作用会导致设计微服务时拆分方式趋同于组织架构,业务增长会导致部门拆分,后续设计微服务时也会十分靠近组织架构。哪怕前期组织架构和微服务拆分不一致,后面微服务也会逐步妥协于组织架构。

 

虽然微服务和组织架构趋同使得系统沟通效率较高,但是这也带来了很多分布式的系统问题。比如微服务之间的交互,没有人能够对服务有整体性、全局性的了解,研发人员最直接的期望就是在分布式系统中也能有单机系统的排查效率,这促使我们需要将系统以服务器为中心的思路转变为以调用链为中心的思路。

image.png

F6最早进行业务开发时采用烟囱式的建设。单体应用比较简单,但是它在扩展性和可维护性上存在很多问题。比如所有研发都在系统上进行,代码冲突较多,什么时间点能发布,发布会造成多少业务量损失等皆难以明确。因此,越来越多情况导致我们需要进行微服务拆分,而微服务拆分和调用又会导致调用链十分复杂繁琐,如上图右所示,几乎无法人为分析出调用链路。

 

那么,怎么样才能尽可能降低线上排查故障的难度?


2. 可观测演进


image.png


传统的监控和微服务日志收集一般采用ELKStack进行日志收集。ELK是三个开源项目的首字母缩写,分别是Elasticsearch、Logstash和Kibana。

 

我们重度依赖ELK进行微服务日志的收集,与此同时,还使用了开源的基于ES的报警系统ElastAlert组件,主要功能是从ES中查询出匹配规则,对相关类型数据进行报警。

 image.png

上图描述了通过日志收集进行日常查询的思路。比如研发人员会通过pipeling查询线上日志,ElastAlert通过匹配规则告警获取到ES日志中发掘出来异常数据,kibana可以进行查询,也可以优先定位出系统中发生的异常。

image.png

随着业务发展,系统对日志的要求也逐步增加,比如团队非常多,需要配置各种各样的告警规则,因此我们引入了Grafana逐步替代kibana和Zabbix的查询功能。可以通过Grafana的ES插件查询对日志进行告警,然后通过alert功能完成原先ElastAlert的排除,同时可以使用Grafana做出更直观的可视化大屏进行展示。

 

除了日志外,我们也期望收集到Java应用指标,因此又引入了Zorka开源组件。Zorka和Zabbix可以简单地进行结合,可以通过Zorka将收集到的信息上报给Zabbix进行展示。而Zabbix又可以通过Grafana Zabbix插件直接输出数据,最终将整个应用大屏和看板信息都收集到Grafana界面。

image.png

Zorka的工作机制类似于通过Zabbix Java gateway的方式,通过Java Agent自动挂载到Java进程中,用于统计常见应用容器和请求数指标等,初步解决了我们对于Java进程的观测需求。

image.png

随着微服务程度不断提升,传统方式的运维成本越来越高,因此,我们启动了云原生化改造。

 

首先,云原生化的改造是K8s侧就绪探针和存活探针的编写。存活探针的编写提升了服务的自愈能力,出现了 OOM 后服务能够自动恢复、启动新节点,保证数据服务正常提供。

 

除了K8s外,我们还引入了Prometheus和ARMS应用监控。Prometheus作为CNCF仅次于K8s的2号项目,在整个metrics领域形成了足够的话语权;ARMS应用监控作为阿里云商业APM的拳头产品,使我们能够结合云原生的方式,实现研发无感,无需进行任何代码改动即可拥有trace功能。更重要的是,阿里云团队能够保持持续迭代,支持越来越多中间件,因此我们认为它必定会成为诊断利器。

image.png

进行云原生化改造后,监控模型也发生了改变。最早的监控模型是push,Zorka每次发布都在同一台机器上,因此它有固定的host;而上云后,容器化改造导致Pod不再固定,且可能会出现新的应用扩缩容等问题。因此,我们将监控模型逐步从push转换成pull模式,也更加契合Prometheus的收集模型,并逐步将Zorka从可观测体系中剥离。

 

没有使用ARMS直接收集JMX指标是因为ARMS不会覆盖线上和线下所有java应用,没有被覆盖的应用也期望有JVM数据收集功能,而ARMS成本略高。因此,出于成本的考虑,我们没有将 ARMS 作为完整接入,而是选择了JMX Exporter组件。

 

JMX Export也是Prometheus官方社区提供的exporter之一。它通过Java Agent利用Java JMX机制读取JVM信息,可以将数据直接转化成为Prometheus可以辨识的metrics格式,使Prometheus能够对其进行监控和采集,并通过Prometheus Operator注册对应的Service Moninor完成指标收集。


接下篇:https://developer.aliyun.com/article/1222699?groupCode=alisoftwaretech


相关文章
|
3天前
|
Cloud Native Serverless 开发者
阿里云助力开发者创新:探索云原生技术的新境界
阿里云开发者社区推动云原生技术发展,提供丰富产品(如容器服务、Serverless、微服务架构、服务网格)与学习平台,助力企业数字化转型。开发者在此探索实践,共享资源,参与技术活动,共同创新,共创云原生技术新篇章。一起加入,开启精彩旅程!
259 2
|
3天前
|
SpringCloudAlibaba Dubbo 应用服务中间件
【微服务】微服务初步认识 - 微服务技术如何学习 · 认识微服务架构
【微服务】微服务初步认识 - 微服务技术如何学习 · 认识微服务架构
12 0
|
3天前
|
负载均衡 持续交付 API
构建高效微服务架构的五大关键技术
【5月更文挑战第13天】在当前软件开发领域,微服务架构已经成为一种流行趋势。本文将探讨构建高效微服务架构的五大关键技术,包括容器化部署、服务发现与注册、API网关、负载均衡以及持续集成与持续部署。这些技术可以帮助开发团队更快速、更可靠地构建和部署微服务应用,提高系统的可扩展性和可维护性。
|
3天前
|
Cloud Native 安全 数据中心
|
3天前
|
人工智能 API
阿里云微服务引擎及 API 网关 2024 年 4 月产品动态
阿里云微服务引擎及 API 网关 2024 年 4 月产品动态。
|
3天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 API 网关 2024 年 04 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要。
|
3天前
|
NoSQL MongoDB 数据库
探寻MongoDB副本集选举机制 阿里云与MongoDB的DBaaS技术合作创新
阿里云连续第五年斩获MongoDB合作伙伴奖项,也是唯一获此殊荣的中国云厂商。一起学习MongoDB副本集的选举机制以及可能会出现的特殊情况。
探寻MongoDB副本集选举机制  阿里云与MongoDB的DBaaS技术合作创新
|
3天前
|
负载均衡 API 数据库
构建高效微服务架构的五大关键技术
【5月更文挑战第4天】 随着云计算和容器化技术的成熟,微服务架构已成为软件开发的主流模式。本文将详细探讨实现高效微服务架构的五个关键技术点:服务拆分策略、API网关设计、服务发现与注册、熔断机制以及分布式事务管理。这些技术点是确保微服务系统可扩展性、灵活性及稳定性的基石,对于后端开发者而言,掌握它们至关重要。文章将提供具体的实施建议和最佳实践,帮助读者构建和维护高性能的微服务系统。
|
3天前
|
消息中间件 监控 微服务
【专栏】随着技术发展,未来将探索服务网格、容器化和云原生技术,以提升微服务架构的效能
【4月更文挑战第27天】本文探讨了构建高效微服务架构的后端开发最佳实践。微服务以服务独立、去中心化、自治和轻量级通信为核心原则,带来可扩展性、独立性、技术灵活性和团队协作优势。实践中,要注意服务拆分粒度、选择合适的通信协议(如RESTful、RPC、消息队列)、处理数据一致性与分布式事务、实施服务治理和监控,以及确保安全性与权限控制。随着技术发展,未来将探索服务网格、容器化和云原生技术,以提升微服务架构的效能。
|
3天前
|
NoSQL Cloud Native Redis
Redis核心开发者的新征程:阿里云与Valkey社区的技术融合与创新
阿里云瑶池数据库团队后续将持续参与Valkey社区,如过往在Redis社区一样耕耘,为开源社区作出持续贡献。
Redis核心开发者的新征程:阿里云与Valkey社区的技术融合与创新