全链路追踪 & 性能监控,GO 应用可观测全面升级

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生网关 MSE Higress,422元/月
简介: 当前,大多数面向 Golang 应用的监控能力主要是通过 SDK 方式接入,需要开放人员手动进行埋点,会存在一定问题。对此,可观测 Go Agent 应运而生。本文介绍的阿里云可观测 Go Agent 方案,能通过无侵入的方式实现应用监控能力。

作者:古琦


01 介绍


随着 Kubernetes 和容器化技术的普及,Go 语言不仅在云原生基础组件领域广泛应用,也在各类业务场景中占据了重要地位。如今,越来越多的新兴业务选择 Golang 作为首选编程语言。得益于丰富的 RPC 框架(如 Gin、Kratos、Kitex 等),Golang在微服务生态中愈加成熟,并被用于很多重要的开源项目,如 OpenTelemetry Collector、ETCD、Prometheus、Istio 等。


但是跟 Java 相比,Golang 在微服务生态上依然处于劣势,相比 Java 可以使用字节码增强的技术来实现无侵入的应用监控能力,Golang 没有成熟的对应方案,当前,大多数面向 Golang 应用的监控能力主要是通过 SDK 方式接入,如 OTel SDK,需要开放人员手动进行埋点,手动埋点的方案就会存在以下的两个问题:


  • Trace 需要每个调用点都需要进行埋点,同时要注意 Trace 上下文的传递,避免链路串联错误
  • Metrics 统计,需要针对每次调用都进行统计,同时注意指标发散的问题
  • 工作量非常大,对业务侵入性,每增加一个接口就需要同步增加对应的埋点


为了解决上述问题,可观测 Go Agent 应运而生。


02 实现原理


Java 有 JVM 提供的基于字节码增强的能力可以进行无侵入的埋点,Golang 没有类似的能力,因此这里我们是通过编译期注入的方案,在编译期完成埋点的注入,架构如下所示:

image.png

1. 语法树分析

我们在编译过程中,利用语法树(AST, Abstract Syntax Tree)解析每个 .go 文件。通过分析语法树,能够精确定位到合适的插入点。具体实现中,我们使用了 dst 库,这是一个强大的语法树解析和变换工具。


2. 编译劫持

利用 Golang 提供的 -toolexec 参数,我们可以在编译时指定一个定制工具来劫持编译过程。该工具——即我们的 Go Agent,在 Golang 程序编译时介入,通过分析和修改语法树,插入监控代码。修改后的文件将编译储存在 .a 文件中,最后生成的二进制文件中包含我们的插入代码。


3. 代码插入

具体流程如下:

  • 解析源代码:在每次编译一个 .go 文件时,Go Agent 通过 toolexec 参数接管编译过程。
  • 语法树分析:使用 dst 库解析每个文件的语法树,找到适合插入监控代码的位置,如函数调用点、HTTP 请求处理点等。
  • 插入监控代码:在选定的插入点中写入监控代码,这些监控代码用来收集运行时信息,如请求数、响应时间、错误率等。
  • 继续编译过程:插入监控代码后,将修改后的文件继续传递给编译器,编译成 .a 文件。最终生成的二进制文件包含了监控逻辑。


03 Go Agent 支持的三方 SDK


通过我们定义插件 API,我们可以非常方便的对不同的SDK进行埋点,当前 Go Agent 支持 1.18 及以上的 Golang 版本,支持如下常见的微服务框架、协议、中间件等我们在 Go Agent 中都做了埋点,如下是当前版本支持的情况,当前已经支持了 20 款的插件能力。

04 产品能力


1. 应用概览

展示应用的请求数、错误数、平均耗时、实例数等信息。

image.png

2. 应用拓扑

展示应用的上下游信息。
image.png

3. 提供服务

展示提供的接口的被调用情况。

image.png

4. 依赖服务

展示依赖的下游服务的调用情况。

image.png

5. 调用链分析

可以完整的展示整个系统的调用链数据。

image.png

image.png

6. 实例监控

image.png

7. 场景化分析

数据库分析:

image.png

异常分析:

image.png

8. 应用配置

可以配置采样率,目前支持按比例采样,还可以配置探针的开关,实现注入能力的实时插拔。

image.png

9. 智能告警

可以配置应用响应的告警规则,针对如应用提供的服务、HTTP 状态码、数据库指标、依赖服务、主机监控配置告警。

image.png


05 兼容性


1)兼容已有的 OTel Go SDK,支持 v1.6.0-v1.26.0 版本,已经使用了 OTel SDK 的应用无需修改也可以通过 Go Agent 接入到 ARMS 应用监控。

2)Trace 透传协议支持 W3C、Jaeger、EagleEye、Zipkin,可以跟已有的其他 Trace 协议进行打通。


06 Go 应用接入应用监控


当您需要对部署在容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)中的 Go 应用进行监控时,通过安装 ARMS 应用监控组件 ack-onepilot 并编译 Go 二进制文件,即可在应用实时监控服务 ARMS 中查看对应应用的应用拓扑、接口调用、数据库分析等相关监控数据。本文将介绍如何为部署在容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)中的 Go 应用安装探针。


前提条件

  • 创建 Kubernetes 集群。您可按需选择创建[1]、创建 ACK 托管集群[2]或创建 ACK Serverless 集群[3]
  • 创建命名空间,具体操作,请参见管理命名空间与配额[4]。本文示例中的命名空间名称为 default。
  • 检查您的编译环境操作系统和架构,以及 Go 版本和框架版本。具体要求,请参见 Golang 探针兼容性要求[5]
  • 应用监控目前只支持使用 Go mod 的仓库编译,如果没有 Go mod 文件,可以使用 Go init 创建 Go mod。


步骤一:安装 ARMS 应用监控组件

1. 登录容器服务管理控制台[6]2. 在左侧导航栏单击集群,然后在集群列表页面单击目标集群名称。

3. 在左侧导航栏选择运维管理 > 组件管理,然后在右上角通过关键字搜索 ack-onepilot。

重要: 请确保 ack-onepilot 的版本在 3.2.0 或以上。

4. 在 ack-onepilot 卡片上单击安装。

说明: ack-onepilot 组件默认支持 1000 个 pod 规模,集群 pod 每超过 1000 个,ack-onepilot 资源对应的 CPU 请增加 0.5 核、内存请增加 512 M。

5. 在弹出的页面中可以配置相关的参数,建议使用默认值,单击确定。

说明: 安装完成后,您可以在组件管理页面升级、配置或卸载 ack-onepilot 组件。


步骤二:编译 Go 二进制文件

1. 使用 wget 命令下载编译工具,请根据编译环境和编译机器所在地域,选择对应的下载地址。

说明: 各地域下载的编译工具是相同的,如果您的公网环境可以访问 OSS 地址,可以直接使用对应操作系统和架构的杭州公网地址获取编译工具。


查看各地域对应的下载命令:

https://help.aliyun.com/zh/arms/application-monitoring/getting-started/ack-installs-a-go-probe-through-ack-onepilot-components?spm=a2c4g.11186623.0.0.243928a8HbTaeb#439ba6b5802t6


2. 通过对 SHA256 校验和进行校验,验证下载结果的完整性,并为编译工具赋予可执行权限。


您可以在探针下载地址后面添加 .sha256 下载获取 SHA256 校验和。

image.png

image.png

image.png

3. 通过 OpenAPI 获取 LicenseKey,具体方法,参见 DescribeTraceLicenseKey -  列出 LicenseKey[7]


4. 在项目 main 函数所在文件的目录下执行编译工具编译 Go 项目,请替换命令行中的 {licenseKey} 为上一步获取到的 LicenseKey。


如果您需要测试编译效果,或暂时无法获取到 LicenseKey,可以添加 --dev 来开启 Dev 编译模式,此模式下不需要传入 LicenseKey。

重要: Dev 模式下编译结果部分功能有降级,请勿用于线上。

image.png

image.png

5. 如果您原本编译命令中含有后续的编译参数,请在所有选项添加完毕后,添加--分隔符,并将编译参数按照原有格式添加在后面,例如:

image.png

image.png

编译后会产生对应的二进制文件,二进制文件的名称可以通过编译参数指定。


如下所示,编译后的二进制名称为 http,如果不添加对应配置,输出的二进制的名称为 go.mod 中 module 配置的名称。

image.png

相关信息

Instgo 常见命令与释义如下:

image.png

初次编译时,探针会默认被下载到 /opt 目录下(Windows 为 C:\ProgramData),如果该目录没有权限,可以使用--cacheDir flag 指定缓存目录,或使用 sudo -E 命令执行编译(Windows 请使用管理员权限执行编译命令)。


编译过程中如果强制退出或出现异常退出,可能会存在编译残留。清理Golang探针编译残留的方法,请参见清理 Golang 探针编译残留[8]


步骤三:授予 ARMS 资源的访问权限

如果需监控 ASK(容器服务 Serverless 版)或对接了 ECI 的集群应用,请在云资源访问授权[9]页面完成授权,然后重启 ack-onepilot 组件下的所有 Pod。


如果需监控 ACK 集群应用,但 ACK 集群中不存在ARMS Addon Token,请执行以下操作手动为集群授予 ARMS 资源的访问权限。如果已经存在 ARMS Addon Token,请跳转至步骤四。


查看集群是否存在 ARMS Addon Token:

a. 登录容器服务管理控制台[10],在集群列表页面,单击目标集群名称进入集群详情页。

b. 在左侧导航栏选择配置管理 > 保密字典,然后在顶部选择命名空间为 kube-system,查看 addon.arms.token 是否存在。

说明: 集群存在 ARMS Addon Token 时,ARMS 会进行免密授权。Kubernetes 托管版集群默认存在 ARMS Addon Token,但对于部分早期创建的 Kubernetes 托管版集群,可能会存在没有 ARMS Addon Token 的情况,因此,对于 Kubernetes 托管版集群,建议首先检查 ARMS Addon Token 是否存在。若不存在,需进行手动授权。


a. 登容器服务管理控制台

b. 在左侧导航栏选择集群,然后单击目标集群名称。

c. 在目标集群的集群信息页面单击集群资源页签,然后单击Worker RAM角色右侧的链接。

d. 在角色页面的权限管理页签上,单击新增授权。

e. 选择权限为 AliyunARMSFullAccess,然后单击确定。


如果需要监控专有版集群和注册集群应用,请确认对应的阿里云账号已包含 AliyunARMSFullAccess 和 AliyunSTSAssumeRoleAccess 权限。添加权限的操作,请参见为 RAM 用户授权[11]

a. 安装 ack-onepilot 组件后,还需要在 ack-onepilot 中填写有 ARMS 权限的阿里云账号 AK/SK。

b. 在左侧导航栏选择应用 > Helm 页面,单击 ack-onepilot 组件右侧的更新。


将 accessKey 和 accessKeySecret 替换为当前账号的 AccessKey,然后单击确定。

说明: 获取 AccessKey 的操作,请参见创建 AccessKey[12]

image.png

c. 重启应用 Deployment。


步骤四:为 Go 应用开启 ARMS 应用监控

如需在创建新应用的同时开启 ARMS 应用监控,请完成以下操作。


1. 在容器服务管理控制台[13]左侧导航栏单击集群,在集群列表页面上的目标集群右侧操作列单击应用管理。

2. 在无状态页面右上角单击使用 YAML 创建资源。

3. 选择示例模板,并在模板(YAML 格式)中将以下 labels 添加到 spec.template.metadata 层级下。


labels:
  aliyun.com/app-language: golang # Go应用必填,标明此应用是Go应用。
  armsPilotAutoEnable: 'on'
  armsPilotCreateAppName: "<your-deployment-name>"    #请将<your-deployment-name>替换为您的应用名称。

image.png

创建一个无状态(Deployment)应用并开启 ARMS 应用监控的完整 YAML 示例模板如下:


查看完整示例 YAML 文件(Java):


apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: fasthttp-server
  name: fasthttp-server
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: fasthttp-server
  strategy:
    rollingUpdate:
      maxSurge: 25%
      maxUnavailable: 25%
    type: RollingUpdate
  template:
    metadata:
      labels:
        app: fasthttp-server
        aliyun.com/app-language: golang
        armsPilotAutoEnable: 'on'
        armsPilotCreateAppName: fasthttp-server
        hostLabelA: aaa
        hostLabelB: bbb
    spec:
      containers:
        - image: >-
            registry.cn-hangzhou.aliyuncs.com/private-mesh/hellob:fasthttp-server-arms-go-test-0.0.1
          imagePullPolicy: Always
          name: fasthttp-server
          resources:
            requests:
              cpu: 250m
              memory: 300Mi
          terminationMessagePath: /dev/termination-log
          terminationMessagePolicy: File
      dnsPolicy: ClusterFirst
      restartPolicy: Always
      schedulerName: default-scheduler
      securityContext: {}
      terminationGracePeriodSeconds: 30
---
apiVersion: v1
kind: Service
metadata:
  labels:
    app: fasthttp-server
  name: fasthttp-server
  namespace: default
spec:
  internalTrafficPolicy: Cluster
  ipFamilies:
    - IPv4
  ipFamilyPolicy: SingleStack
  ports:
    - name: http
      port: 8080
      protocol: TCP
      targetPort: 8080
  selector:
    app: fasthttp-server
  sessionAffinity: None
  type: ClusterIP


---
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: fasthttp-client
  name: fasthttp-client
  namespace: default
spec:
  replicas: 1
  revisionHistoryLimit: 10
  selector:
    matchLabels:
      app: fasthttp-client
  strategy:
    rollingUpdate:
      maxSurge: 25%
      maxUnavailable: 25%
    type: RollingUpdate
  template:
    metadata:
      labels:
        app: fasthttp-client
        aliyun.com/app-language: golang
        armsPilotAutoEnable: 'on'
        armsPilotCreateAppName: fasthttp-client
        hostLabelA: aaa
        hostLabelB: bbb
    spec:
      containers:
        - image: >-
            registry.cn-hangzhou.aliyuncs.com/private-mesh/hellob:fasthttp-client-arms-go-test-0.0.1
          imagePullPolicy: Always
          name: fasthttp-client
          resources:
            requests:
              cpu: 250m
              memory: 300Mi
          terminationMessagePath: /dev/termination-log
          terminationMessagePolicy: File
      dnsPolicy: ClusterFirst
      restartPolicy: Always
      schedulerName: default-scheduler
      securityContext: {}
      terminationGracePeriodSeconds: 30


执行结果

约一分钟后,若 Golang 应用出现在 ARMS 控制台[14]的应用监控 > 应用列表页面中且有数据上报,则说明接入成功。

image.png

点击此处立即开通 ARMS - 应用监控,享受每月 50GB 免费额度!加入钉钉群(群号:35568145)获得在线技术支持。


相关链接:

[1] 创建

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/create-an-ack-dedicated-cluster?spm=a2c4g.11186623.0.i4#task-skz-qwk-qfb

[2] 创建 ACK 托管集群

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/create-an-ack-managed-cluster-2?spm=a2c4g.11186623.0.i5#task-skz-qwk-qfb

[3] 创建 ACK Serverless 集群

https://help.aliyun.com/zh/ack/serverless-kubernetes/user-guide/create-an-ask-cluster-2?spm=a2c4g.11186623.0.i6#task-e3c-311-ydb

[4] 管理命名空间与配额

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/manage-namespaces-and-resource-quotas-1?spm=a2c4g.11186623.0.i7#task-2060973

[5] Golang 探针兼容性要求

https://help.aliyun.com/zh/arms/application-monitoring/developer-reference/go-components-and-frameworks-supported-by-arms-application-monitoring?spm=a2c4g.11186623.0.i8

[6] 容器服务管理控制台

https://cs.console.aliyun.com/?spm=a2c4g.11186623.0.0.5de2554b7Zi2Ir#/k8s/cluster/list

[7] DescribeTraceLicenseKey -  列出 LicenseKey

https://help.aliyun.com/zh/arms/application-monitoring/developer-reference/api-arms-2019-08-08-describetracelicensekey-apps?spm=a2c4g.11186623.0.i9

[8] 清理 Golang 探针编译残留

https://help.aliyun.com/zh/arms/application-monitoring/user-guide/unloading-the-golang-probe?spm=a2c4g.11186623.0.i10#376f76252fhsm

[9] 云资源访问授权

https://ram.console.aliyun.com/role/authorization?spm=a2c4g.11186623.0.0.5de24bc27D1EPz&request=%7B%22Services%22%3A%5B%7B%22Service%22%3A%22ECS%22%2C%22Roles%22%3A%5B%7B%22RoleName%22%3A%22AliyunMSEForECIRole%22%2C%22TemplateId%22%3A%22AliyunMSEForECIRole%22%7D%5D%7D%5D%2C%22ReturnUrl%22%3A%22https%3A%2F%2Farms.console.aliyun.com%22%7D

[10] 容器服务管理控制台

https://cs.console.aliyun.com/?spm=a2c4g.11186623.0.0.5de24bc27D1EPz#/k8s/cluster/list

[11] 为 RAM 用户授权

https://help.aliyun.com/zh/ram/user-guide/grant-permissions-to-the-ram-user?spm=a2c4g.11186623.0.i11

[12] 创建 AccessKey

https://help.aliyun.com/zh/ram/user-guide/create-an-accesskey-pair?spm=a2c4g.11186623.0.i12

[13] 容器服务管理控制台

https://cs.console.aliyun.com/?spm=a2c4g.11186623.0.0.5de22c6a8Wb7NM#/k8s/cluster/list

[14] ARMS 控制台

https://arms.console.aliyun.com/?spm=a2c4g.11186623.0.0.5de22c6a8Wb7NM#/home


参考文档:

[1] 手动安装 Golang 探针

https://help.aliyun.com/zh/arms/application-monitoring/getting-started/manually-install-the-golang-probe?spm=a2c4g.11186623.0.0.760528a8VT9OFu

相关实践学习
分布式链路追踪Skywalking
Skywalking是一个基于分布式跟踪的应用程序性能监控系统,用于从服务和云原生等基础设施中收集、分析、聚合以及可视化数据,提供了一种简便的方式来清晰地观测分布式系统,具有分布式追踪、性能指标分析、应用和服务依赖分析等功能。 分布式追踪系统发展很快,种类繁多,给我们带来很大的方便。但在数据采集过程中,有时需要侵入用户代码,并且不同系统的 API 并不兼容,这就导致了如果希望切换追踪系统,往往会带来较大改动。OpenTracing为了解决不同的分布式追踪系统 API 不兼容的问题,诞生了 OpenTracing 规范。OpenTracing 是一个轻量级的标准化层,它位于应用程序/类库和追踪或日志分析程序之间。Skywalking基于OpenTracing规范开发,具有性能好,支持多语言探针,无侵入性等优势,可以帮助我们准确快速的定位到线上故障和性能瓶颈。 在本套课程中,我们将全面的讲解Skywalking相关的知识。从APM系统、分布式调用链等基础概念的学习加深对Skywalking的理解,从0开始搭建一套完整的Skywalking环境,学会对各类应用进行监控,学习Skywalking常用插件。Skywalking原理章节中,将会对Skywalking使用的agent探针技术进行深度剖析,除此之外还会对OpenTracing规范作整体上的介绍。通过对本套课程的学习,不止能学会如何使用Skywalking,还将对其底层原理和分布式架构有更深的理解。本课程由黑马程序员提供。
相关文章
|
17天前
|
算法 程序员 编译器
美丽的代码:规范go应用代码注释
【6月更文挑战第30天】本文介绍注释应与代码同步,避免误导,且关键点解释。使用LLVM构建编译器示例展示Go语言规范。注释虽有局限,但在解释复杂逻辑、业务规则时仍有其价值。程序员需平衡注释与代码的关系,创造更优的代码。
1003 0
美丽的代码:规范go应用代码注释
|
25天前
|
安全 测试技术 Go
Go语言在高并发场景下的应用
在当今互联网高速发展的时代,高并发已成为众多应用系统面临的核心问题。本文探讨了Go语言在高并发场景下的优势,并通过具体实例展示了其在实际应用中的效果和性能表现。
|
12天前
|
XML JSON Go
Swoole与Go系列教程之WebSocket服务的应用
在 WebSocket 协议出现之前,Web 应用为了能过获取到实时的数据都是通过不断轮询服务端的接口。轮询的效率、延时很低,并且很耗费资源。
1024 1
Swoole与Go系列教程之WebSocket服务的应用
|
11天前
|
网络协议 Go
Swoole与Go系列教程之TCP服务的应用
TCP(传输控制协议)的出现是为了解决计算机网络中的数据可靠传输和连接管理的问题。在早期的计算机网络中,特别是在分组交换和互联网的发展初期,网络是不可靠的,存在丢包、错误和延迟等问题。
963 0
Swoole与Go系列教程之TCP服务的应用
|
14天前
|
网络协议 程序员 应用服务中间件
Swoole与Go系列教程之HTTP服务的应用
PHP 曾是Web开发领域佼佼者,随着业务壮大,异步和高并发方面不足显现。Swoole 曾经尝试填补空白,但局限性也比较的明显。Go 语言的崛起,简洁语法和并发优势吸引大厂使用,吸引了大多数程序员的转型。
971 0
Swoole与Go系列教程之HTTP服务的应用
|
21天前
|
Devops Go 云计算
Go语言发展现状:历史、应用、优势与挑战
Go语言发展现状:历史、应用、优势与挑战
|
1月前
|
监控 Java 数据安全/隐私保护
性能监控之 JMX 监控 Docker 容器中的 Java 应用
【6月更文挑战9天】性能监控之 JMX 监控 Docker 容器中的 Java 应用
430 1
|
1月前
|
弹性计算 Java Serverless
Serverless 应用引擎操作报错合集之在执行环境 custom pre-deploy 时,命令 "go mod tidy" 失败了,是什么导致的
Serverless 应用引擎(SAE)是阿里云提供的Serverless PaaS平台,支持Spring Cloud、Dubbo、HSF等主流微服务框架,简化应用的部署、运维和弹性伸缩。在使用SAE过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
388 0
|
2月前
|
安全 Go
Golang深入浅出之-Go语言中的并发安全队列:实现与应用
【5月更文挑战第3天】本文探讨了Go语言中的并发安全队列,它是构建高性能并发系统的基础。文章介绍了两种实现方法:1) 使用`sync.Mutex`保护的简单队列,通过加锁解锁确保数据一致性;2) 使用通道(Channel)实现无锁队列,天生并发安全。同时,文中列举了并发编程中常见的死锁、数据竞争和通道阻塞问题,并给出了避免这些问题的策略,如明确锁边界、使用带缓冲通道、优雅处理关闭以及利用Go标准库。
360 5
|
2月前
|
负载均衡 监控 Go
Golang深入浅出之-Go语言中的服务网格(Service Mesh)原理与应用
【5月更文挑战第5天】服务网格是处理服务间通信的基础设施层,常由数据平面(代理,如Envoy)和控制平面(管理配置)组成。本文讨论了服务发现、负载均衡和追踪等常见问题及其解决方案,并展示了使用Go语言实现Envoy sidecar配置的例子,强调Go语言在构建服务网格中的优势。服务网格能提升微服务的管理和可观测性,正确应对问题能构建更健壮的分布式系统。
379 1