《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【上】

本文涉及的产品
注册配置 MSE Nacos/ZooKeeper,118元/月
性能测试 PTS,5000VUM额度
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【上】

作者:祁晓波

image.png


很多研发人员在日常工作中经常回遇到以下两个问题:竟然不可以运行,为什么?竟然可以运行,为什么?

 

因此,他们非常期望可观测能够提供解决问题的思路。

image.png

2017年,推特工程师Cindy发表了一篇名为《Monitoring and Observability》的文章,首次将可观测性这一词汇带入开发者视野,通过半开玩笑的方式调侃了关于可观测性和监控的区别。在软件产品和服务领域,监控能够告知我们服务究竟是否能正常运行,而可观测性可以告诉我们为为什么服务没有正常运行。

 

从谷歌趋势图中可以看到,可观测性的普及率呈现逐年上升的态势,它也被视为系统的属性,将逐步成为系统在做开发设计过程中就需要具备的特性。

image.png

2020年后,可观测的搜索趋势出现井喷,很大一部分原因是SRE站点可靠性工程逐步普及,国内大厂纷纷设立相关岗位和对应招聘指标,使得可观测性在国内也得到了较多关注。这也意味着越来越多的基础服务面临了稳定性挑战,而破解稳定性挑战的重要手段就在于提供可观测性。

 

上图左下角为可观测性的全球搜索趋势,其中中国的搜索热度颇高。

image.png

可观测性是由匈牙利工程师提出的一个数学概念,指系统可以由外部输出推断其内部状态的程度。换句话说,可观测性应当可以从数据产出中分析出其内部的具体运转细节。


1. 难点与挑战

image.png

F6汽车科技是一家专注于汽车后市场信息化建设的互联网平台公司,目前处于行业内头部位置。随着业务蓬勃发展,F6支持的商户数目短时间内暴增数十倍,同时也逐步开展了面向技师等C端场景的业务,比如Vin码解析、数据查询等,对于稳定性的要求显著提高。

image.png

康威定律是IT史上对整个组织架构进行微服务拆分的指导性定律。任何组织在设计系统过程中都是组织架构的翻版,随着业务膨胀,康威定律作用会导致设计微服务时拆分方式趋同于组织架构,业务增长会导致部门拆分,后续设计微服务时也会十分靠近组织架构。哪怕前期组织架构和微服务拆分不一致,后面微服务也会逐步妥协于组织架构。

 

虽然微服务和组织架构趋同使得系统沟通效率较高,但是这也带来了很多分布式的系统问题。比如微服务之间的交互,没有人能够对服务有整体性、全局性的了解,研发人员最直接的期望就是在分布式系统中也能有单机系统的排查效率,这促使我们需要将系统以服务器为中心的思路转变为以调用链为中心的思路。

image.png

F6最早进行业务开发时采用烟囱式的建设。单体应用比较简单,但是它在扩展性和可维护性上存在很多问题。比如所有研发都在系统上进行,代码冲突较多,什么时间点能发布,发布会造成多少业务量损失等皆难以明确。因此,越来越多情况导致我们需要进行微服务拆分,而微服务拆分和调用又会导致调用链十分复杂繁琐,如上图右所示,几乎无法人为分析出调用链路。

 

那么,怎么样才能尽可能降低线上排查故障的难度?


2. 可观测演进


image.png


传统的监控和微服务日志收集一般采用ELKStack进行日志收集。ELK是三个开源项目的首字母缩写,分别是Elasticsearch、Logstash和Kibana。

 

我们重度依赖ELK进行微服务日志的收集,与此同时,还使用了开源的基于ES的报警系统ElastAlert组件,主要功能是从ES中查询出匹配规则,对相关类型数据进行报警。

 image.png

上图描述了通过日志收集进行日常查询的思路。比如研发人员会通过pipeling查询线上日志,ElastAlert通过匹配规则告警获取到ES日志中发掘出来异常数据,kibana可以进行查询,也可以优先定位出系统中发生的异常。

image.png

随着业务发展,系统对日志的要求也逐步增加,比如团队非常多,需要配置各种各样的告警规则,因此我们引入了Grafana逐步替代kibana和Zabbix的查询功能。可以通过Grafana的ES插件查询对日志进行告警,然后通过alert功能完成原先ElastAlert的排除,同时可以使用Grafana做出更直观的可视化大屏进行展示。

 

除了日志外,我们也期望收集到Java应用指标,因此又引入了Zorka开源组件。Zorka和Zabbix可以简单地进行结合,可以通过Zorka将收集到的信息上报给Zabbix进行展示。而Zabbix又可以通过Grafana Zabbix插件直接输出数据,最终将整个应用大屏和看板信息都收集到Grafana界面。

image.png

Zorka的工作机制类似于通过Zabbix Java gateway的方式,通过Java Agent自动挂载到Java进程中,用于统计常见应用容器和请求数指标等,初步解决了我们对于Java进程的观测需求。

image.png

随着微服务程度不断提升,传统方式的运维成本越来越高,因此,我们启动了云原生化改造。

 

首先,云原生化的改造是K8s侧就绪探针和存活探针的编写。存活探针的编写提升了服务的自愈能力,出现了 OOM 后服务能够自动恢复、启动新节点,保证数据服务正常提供。

 

除了K8s外,我们还引入了Prometheus和ARMS应用监控。Prometheus作为CNCF仅次于K8s的2号项目,在整个metrics领域形成了足够的话语权;ARMS应用监控作为阿里云商业APM的拳头产品,使我们能够结合云原生的方式,实现研发无感,无需进行任何代码改动即可拥有trace功能。更重要的是,阿里云团队能够保持持续迭代,支持越来越多中间件,因此我们认为它必定会成为诊断利器。

image.png

进行云原生化改造后,监控模型也发生了改变。最早的监控模型是push,Zorka每次发布都在同一台机器上,因此它有固定的host;而上云后,容器化改造导致Pod不再固定,且可能会出现新的应用扩缩容等问题。因此,我们将监控模型逐步从push转换成pull模式,也更加契合Prometheus的收集模型,并逐步将Zorka从可观测体系中剥离。

 

没有使用ARMS直接收集JMX指标是因为ARMS不会覆盖线上和线下所有java应用,没有被覆盖的应用也期望有JVM数据收集功能,而ARMS成本略高。因此,出于成本的考虑,我们没有将 ARMS 作为完整接入,而是选择了JMX Exporter组件。

 

JMX Export也是Prometheus官方社区提供的exporter之一。它通过Java Agent利用Java JMX机制读取JVM信息,可以将数据直接转化成为Prometheus可以辨识的metrics格式,使Prometheus能够对其进行监控和采集,并通过Prometheus Operator注册对应的Service Moninor完成指标收集。


接下篇:https://developer.aliyun.com/article/1222699?groupCode=alisoftwaretech


相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
10天前
|
Java 网络安全 Nacos
Nacos作为流行的微服务注册与配置中心,其稳定性和易用性备受青睐。
Nacos作为流行的微服务注册与配置中心,其稳定性和易用性备受青睐。然而,实际使用中常遇到“客户端不发送心跳检测”的问题。本文深入探讨该问题的原因及解决方案,帮助开发者快速定位并解决问题,确保服务正常运行。通过检查客户端配置、网络连接、日志、版本兼容性、心跳策略、注册状态、重启应用和环境变量等步骤,系统地排查和解决这一问题。
25 3
|
14天前
|
运维 NoSQL Java
后端架构演进:微服务架构的优缺点与实战案例分析
【10月更文挑战第28天】本文探讨了微服务架构与单体架构的优缺点,并通过实战案例分析了微服务架构在实际应用中的表现。微服务架构具有高内聚、低耦合、独立部署等优势,但也面临分布式系统的复杂性和较高的运维成本。通过某电商平台的实际案例,展示了微服务架构在提升系统性能和团队协作效率方面的显著效果,同时也指出了其带来的挑战。
54 4
|
2月前
|
Dubbo Java 应用服务中间件
微服务框架Dubbo环境部署实战
微服务框架Dubbo环境部署的实战指南,涵盖了Dubbo的概述、服务部署、以及Dubbo web管理页面的部署,旨在指导读者如何搭建和使用Dubbo框架。
219 17
微服务框架Dubbo环境部署实战
|
2月前
|
人工智能 关系型数据库 分布式数据库
用友X阿里云:加速AI in SaaS
在今年的云栖大会上,用友公司与阿里云共同宣布将进一步加深合作,推动用友BIP与阿里云深度融合,以SaaS模式为诸多大中型企业客户提供一体化解决方案。同时,通义大模型已作为底层基础大模型集成到用友企业服务大模型YonGPT,加速企业数智化转型。
68 7
|
2月前
|
运维 持续交付 API
深入理解并实践微服务架构:从理论到实战
深入理解并实践微服务架构:从理论到实战
133 3
|
2月前
|
自然语言处理 Java 网络架构
解锁跨平台微服务新纪元:Micronaut与Kotlin联袂打造的多语言兼容服务——代码、教程、实战一次打包奉送!
【9月更文挑战第6天】Micronaut是一款轻量级、高性能的Java框架,适用于微服务开发。它支持Java、Groovy和Kotlin等多种语言,提供灵活的多语言开发环境。本文通过创建一个简单的多语言兼容服务,展示如何使用Micronaut及其注解驱动特性实现REST接口,并引入国际化支持。无论是个人项目还是企业应用,Micronaut都能提供高效、一致的开发体验,成为跨平台开发的利器。通过简单的配置和代码编写,即可实现多语言支持,展现其强大的跨平台优势。
51 3
|
2月前
|
运维 监控 持续交付
深入浅出:微服务架构的设计与实战
微服务,一个在软件开发领域如雷贯耳的名词,它代表着一种现代软件架构的风格。本文将通过浅显易懂的语言,带领读者从零开始了解微服务的概念、设计原则及其在实际项目中的运用。我们将一起探讨如何将一个庞大的单体应用拆分为灵活、独立、可扩展的微服务,并分享一些实践中的经验和技巧。无论你是初学者还是有一定经验的开发者,这篇文章都将为你提供新的视角和深入的理解。
80 3
|
3月前
|
监控 Cloud Native 开发者
云端精英的.NET微服务秘籍:Azure上的创新实战演练
【8月更文挑战第28天】在现代软件开发中,微服务架构通过分解应用程序提升可维护性和扩展性。结合Azure与.NET框架,开发者能轻松打造高效且易管理的云原生微服务。首先,使用Docker容器化.NET应用,并借助Azure Kubernetes Service(AKS)或Azure Container Instances(ACI)部署。为确保高可用性和伸缩性,可利用Azure Traffic Manager负载均衡及Azure Autoscale动态调整实例数。
28 0
|
6月前
|
Web App开发 编解码 Java
B/S基层卫生健康云HIS医院管理系统源码 SaaS模式 、Springboot框架
基层卫生健康云HIS系统采用云端SaaS服务的方式提供,使用用户通过浏览器即能访问,无需关注系统的部署、维护、升级等问题,系统充分考虑了模板化、配置化、智能化、扩展化等设计方法,覆盖了基层医疗机构的主要工作流程,能够与监管系统有序对接,并能满足未来系统扩展的需要。
215 5
|
29天前
|
前端开发 算法 JavaScript
无界SaaS模式深度解析:算力算法、链接力、数据确权制度
私域电商的无界SaaS模式涉及后端开发、前端开发、数据库设计、API接口、区块链技术、支付和身份验证系统等多个技术领域。本文通过简化框架和示例代码,指导如何将核心功能转化为技术实现,涵盖用户管理、企业店铺管理、数据流量管理等关键环节。