链路追踪所需要了解的知识

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
简介: 【2月更文挑战第29天】链路追踪,或称调用链监控,用于记录跨服务的逻辑请求信息,协助开发者优化性能和定位问题。它捕获异常、错误和有价值的数据。

链路追踪(tracing)即调用链监控,特点是通过记录多个在请求间跨服务完成的逻辑请求信息,帮助开发人员优化性能和进行问题追踪。链路追踪可以捕获每个请求遇到的异常和错误,以及即时信息和有价值的数据。

1、微服务链路追踪解决的难题

随着微服务应用数量的极速增加,服务与服务链路之间的调用关系也变得错综复杂。此时,我们也会碰到各种难题。

  • 系统出现问题后,由于服务链路过长或过于复杂,无法快速准确定位问题。客户端(如浏览器)或者移动端应用报出异常或者错误,也无法确定是哪个服务抛出的异常。
  • 某个业务请求非常慢,且总是超时,无法确定系统哪个环节存在性能的问题。
  • 如何快速发现问题?可以通过调用链结合业务日志快速定位错误信息。
  • 如何判断故障影响范围?各个阶段链路耗时、服务依赖关系可以通过可视化界面展现出来,从而直观地审视故障的影响范围。
  • 如何梳理服务依赖以及依赖的合理性?如何分析链路性能问题以及实时容量规划?通过分析链路耗时、服务间的依赖关系,就可以得到用户的行为路径,汇总分析出具体出问题的场景。

2、链路追踪重要概念介绍

市面上的绝大部分APM都是以谷歌公开论文中提到的Dapper为基础构建而成,先来一起看看调用链监控中的几个重要概念。

  1. Trace

指一次完整的分布式调用链路可以看作一棵二叉树,从中我们能直观地看到请求经过所有服务的路径。从请求到服务器开始,到服务器返回响应数据结束,跟踪每次RPC调用的耗时,并使用唯一标识trace id。例如,你完成一次微信支付,从微信扫描二维码到付款成功,唯一trace id将保留在整个请求链路中。

服务间经过的分支链路构成了一条完整的链路,其中每一条分支链路都用全局唯一的trace id来标识,便于对其上下文进行追踪。

  1. Span

每次进行本地或者远程方法的调用时会创建一个Span,我们通过一个64位ID来标识它,Span中还有其他数据,例如描述信息、时间戳、key-value对(Annotation)的tag信息、parent id等,其中parent id可以表示Span调用链路来源。通过Span的ID我们可以轻松了解服务的父服务是谁,再结合trace id就可以将一条完整的请求调用链串联起来。

  1. Annotation

为附加在Span上的日志信息,如下图在请求中的应用。

  • Client Start:表示客户端发起请求;
  • Server Receive:表示服务端收到请求;
  • Server Send:表示服务端完成处理,并将结果发送给客户端;
  • Client Received:表示客户端获取到服务端返回的响应数据。
  • foo:表示开发者选择在跟踪中增加他们自己的注释,即业务数据,这些信息会和Span信息被一同记录。


可以利用Annotation里的信息来计算一次调用的耗时,只需将客户端结束的时间点减去客户端开始请求的时间点,如果要计算客户端发送网络耗时,即客户端接收请求的时间点减去客户端发送请求的时间点。

  1. Sampling

采样率,需在客户端按照比例埋点并将信息提交给服务端。采集信息时的低损耗是这类监控服务设计时的重要标准,如果监控工具采集信息时给微服务造成了严重的性能问题,反而得不偿失。进行样本采样时,应该根据系统业务和技术架构,对每个应用和服务分别设置相应的采样率,每个应用的采样率可以动态调整。在产品的不同阶段采样率可能不同。例如,产品上线后的时段需要大量采样来了解整个系统的运行状态,这就需要提高采样率,当系统处于稳定时期,可以适当降低收集采样的频率。


采样收集包括可变自适应采样与固定采样。

1)可变自适应采样机制是不使用统一的采样率,在低流量负载时会自动提高采样率,而高流量负载则会自动降低采样率,从而掌控性能损耗。

2)而固定采样率模式是设置采样的百分比,可以设置阈值为0~100之间,当采样率设置为100时,则每次调用都会进行采样收集。

3、链路追踪的工具介绍

了解了链路追踪工具的原理后,我们来看看业界常用的链路追踪系统Zipkin、PinPoint、SkyWalking,这里以SkyWalking为例子。

SkyWalking逻辑上分为4部分:探针、平台后端、存储和用户界面。

1)探针:基于不同的来源,探针的实现可能不一样,但作用都是收集数据。

2)平台后端:支持数据聚合、数据分析以及获取探针采集到的数据。数据获取与分析来自SkyWalking原生追踪和性能指标以及第三方数据来源,第三方数据来源包括Istio、Envoy telemetry及Zipkin的追踪格式化数据等。我们甚至可以使用可观测分析语言对原生度量指标和计量系统的扩展变量指标进行自定义聚合分析。

3)存储:通过开放的插件化的接口存放SkyWalking数据,你可以选择一个既有的存储系统,如Elasticsearch、H2或MySQL集群(ShardingSphere管理),也可以选择自己实现一个存储系统。

4)用户界面:一个基于接口并且可定制化的Web系统,用户可以查看和管理SkyWalking数据。

相关实践学习
基于OpenTelemetry构建全链路追踪与监控
本实验将带领您快速上手可观测链路OpenTelemetry版,包括部署并接入多语言应用、体验TraceId自动注入至日志以实现调用链与日志的关联查询、以及切换调用链透传协议以满足全链路打通的需求。
分布式链路追踪Skywalking
Skywalking是一个基于分布式跟踪的应用程序性能监控系统,用于从服务和云原生等基础设施中收集、分析、聚合以及可视化数据,提供了一种简便的方式来清晰地观测分布式系统,具有分布式追踪、性能指标分析、应用和服务依赖分析等功能。 分布式追踪系统发展很快,种类繁多,给我们带来很大的方便。但在数据采集过程中,有时需要侵入用户代码,并且不同系统的 API 并不兼容,这就导致了如果希望切换追踪系统,往往会带来较大改动。OpenTracing为了解决不同的分布式追踪系统 API 不兼容的问题,诞生了 OpenTracing 规范。OpenTracing 是一个轻量级的标准化层,它位于应用程序/类库和追踪或日志分析程序之间。Skywalking基于OpenTracing规范开发,具有性能好,支持多语言探针,无侵入性等优势,可以帮助我们准确快速的定位到线上故障和性能瓶颈。 在本套课程中,我们将全面的讲解Skywalking相关的知识。从APM系统、分布式调用链等基础概念的学习加深对Skywalking的理解,从0开始搭建一套完整的Skywalking环境,学会对各类应用进行监控,学习Skywalking常用插件。Skywalking原理章节中,将会对Skywalking使用的agent探针技术进行深度剖析,除此之外还会对OpenTracing规范作整体上的介绍。通过对本套课程的学习,不止能学会如何使用Skywalking,还将对其底层原理和分布式架构有更深的理解。本课程由黑马程序员提供。
相关文章
|
6月前
|
存储 监控 Cloud Native
初探分布式链路追踪(下)
初探分布式链路追踪(下)
128 2
|
6月前
|
存储 数据采集 消息中间件
初探分布式链路追踪(上)
初探分布式链路追踪(上)
155 2
|
存储 机器学习/深度学习 运维
基础篇丨链路追踪(Tracing)其实很简单(3)
基础篇丨链路追踪(Tracing)其实很简单
195 0
基础篇丨链路追踪(Tracing)其实很简单(3)
|
存储 运维 监控
基础篇丨链路追踪(Tracing)其实很简单(2)
基础篇丨链路追踪(Tracing)其实很简单
164 0
基础篇丨链路追踪(Tracing)其实很简单(2)
|
数据采集 调度 数据库
基础篇丨链路追踪(Tracing)其实很简单(1)
基础篇丨链路追踪(Tracing)其实很简单
152 0
|
SQL 缓存 运维
使用篇丨链路追踪(Tracing)很简单:链路实时分析、监控与告警
使用篇丨链路追踪(Tracing)很简单:链路实时分析、监控与告警
6547 10
使用篇丨链路追踪(Tracing)很简单:链路实时分析、监控与告警
|
SQL 缓存 运维
使用篇丨链路追踪(Tracing)很简单:链路拓扑
使用篇丨链路追踪(Tracing)很简单:链路拓扑
31527 7
|
消息中间件 数据可视化 JavaScript
什么是链路追踪?分布式系统如何实现链路追踪?
什么是链路追踪?分布式系统如何实现链路追踪?
|
存储 缓存 运维
基础篇丨链路追踪(Tracing)其实很简单
基础篇丨链路追踪(Tracing)其实很简单
基础篇丨链路追踪(Tracing)其实很简单
|
存储 消息中间件 Ubuntu
链路追踪学习二:Jaeger
链路追踪学习二:Jaeger
562 0
链路追踪学习二:Jaeger