GIAC-2022sh 学习笔记 | 云原生时代的可观测体系在大规模应用中的落地实践

简介: GIAC-2022sh 学习笔记 | 云原生时代的可观测体系在大规模应用中的落地实践

otel.png

GIAC-2022sh 学习笔记 | 云原生时代的可观测体系在大规模应用中的落地实践

http://www.thegiac.com/2022sh/schedule

云原生时代的可观测体系在大规模应用中的落地实践

闫鹏

阿里云智能高级技术专家

个人简介

  • 目前就职于阿里云智能云原生应用平台部门
  • 阿里云可观测产品ARMS技术负责人
  • 在云计算/PaaS/中间件领域工作10年+
  • 主导了从阿里巴巴鹰眼监控产品到公有云可观测产品的体系建设及系统架构演进
  • 在分布式链路追踪,根因诊断,开源技术以及产品商业化等方向具有丰富的实战经验。

OpenTelemetry的前世与今生

OpenTelemetry横空出世

可观测领域的两大阵营

  • OpenTracing:CNCF(Cloud Native Computing Foundation)的项目,提供与厂商无关的API及规范, 使应用能够快速具备Tracing能力,如Zipkin、Jaeger都遵循此协议。
  • OpenCensus:Google公司主导的开源项目,Dapper的社区版本,在应用中快速集成Metrics和Tracing, 不仅仅提供规范,还提供Agent、Collector等组件。

OpenTelemetry的架构设计

otel_arch.png

OpenTelemetry不是像Jaeger、Prometheus这些开源项目一样具备存储、查询、以及Dashboard的能力。 相反,它提供了一个可插拔的体系结构,能够将数据导出到各种开源和商业化产品的后端服务。

开源项目、商业化产品之间的关系

相比Zipkin、Jaeger拥有更加优秀的设计理念

  • 全面消除厂商的 Lock-on 隐患
  • 提供标准化的Instrumentation框架
  • 提供可插拔的能力,服务选择更加自由
  • 提供多种数据源,系统对接灵活
  • 规范的制定、协议的统一
  • API语言无关,定义Metrics、Trace、Logs数据类型及操作
  • SDK根据不同API来实现,定义配置、数据处理和导出过程
  • OTLP原生标准协议定义,同时支持Thrift等多种协议扩展
  • 多语言、多环境的支持
  • 支持C++、.NET、Go、Java、PHP等10+种不同语言的SDK
  • 提供Host、Docker、以及Kubernates等多种不同环境下的接入方案
  • 通过Collector实现与不同开源及商业化产品数据的无缝对接

开源、商业化产品之间的关系

  • 应用场景: OpenTelemetry等开源产品 阿里云ARMS可观测套件 (商业化产品)
  • 接入成本
  • 系统运维
  • 采集器(探针)管 理
  • 可视化展示
  • 安全性
  • 根因定位能力
  • 统一监控
  • 可扩展性与服务性

从0到1落地可观测体系的三大挑战及解决方案

实际生产环境下构建可观测体系的三大挑战

  • 数据孤岛: 挑战一:数据的孤岛、监控工具的孤岛导致无法释放数据的关联价值。
  • 高昂成本: 挑战二:多探针、数据、环境的多样化带来的高昂运维及存储成本。
  • 场景复杂: 挑战三:异构系统的互通、异步调用等场景复杂化为最终落地增加了难度。

打破数据孤岛的三个要素

  • 将三个柱子,变成互相连接的一股绳子
  • 指标 调用链 日志 (Metrics) (Trace) (Logs)
  • 三个要素: 数据采集 模型定义 关联分析

三个柱子+三个要素的落地方案

Metrics(指标) Trace(调用链) Logs(日志)

与存量监控系统工具的互联与互通

Kubernates场景下探针自动接入的技术方案

  • 探针种类繁多
  • 探针版本管理
  • 业务遇到问题,探针如何快速回滚 探针如何安装

预聚合、链路压缩实现低成本的无损统计与传输

通过预聚合的实现原理,捕捉每一次真实请求,先聚合,后采样,再上报,从而实现无损统计,端侧成本降低80%。

冷热数据分离,进一步降低存储成本

  • 热数据实时分析:30分钟全量调用链、实时查询 &分析,满足在线诊断需求。
  • 冷数据精准采样:根据链路特征自定义采样策略 (Tail-based Sampling),只持久化存储需要的 调用链(比如错慢调用),大幅降低存储成本。

不同Trace协议下异构系统无法实现互通

异步场景下的断链影响准确性与完整性

落地完整可观测体系的技术架构

otel.png

可观测的未来与展望

行业发展趋势

  • 伴随运维能力下沉,可观测重要性得到进一步提升。
  • 多云、混合云架构应用,为可观测体系的建设带来新的机遇与挑战。
  • 打破数据孤岛、系统融合、统一监控运维等诉求变得更加强烈。
  • 可观测在IT成本治理、业务运营等细分领域逐渐被广泛应用。

可观测技术的演进

  • 开源技术栈进一步收敛(Prometheus、OpenTelemetry、Grafana)
  • eBPF 技术由初始阶段进入发展阶段,逐步在生产环境中应用。
  • eBPF 与开源APM项目强强联合,持续释放技术红利。
目录
相关文章
|
4月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1115 50
|
6月前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
国诚投顾携手阿里云,依托Serverless架构实现技术全面升级,构建高弹性、智能化技术底座,提升业务稳定性与运行效率。通过云原生API网关、微服务治理与智能监控,实现流量精细化管理与系统可观测性增强,打造安全、敏捷的智能投顾平台,助力行业数字化变革。
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
|
6月前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
通过与阿里云深度合作,国诚投顾完成了从传统 ECS 架构向云原生 Serverless 架构的全面转型。新的技术架构不仅解决了原有系统在稳定性、弹性、运维效率等方面的痛点,还在成本控制、API 治理、可观测性、DevOps 自动化等方面实现了全方位升级。
|
4月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
307 7
|
6月前
|
弹性计算 运维 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生Serverless实践
简介: 通过与阿里云深度合作,国诚投顾完成了从传统 ECS 架构向云原生 Serverless 架构的全面转型。新的技术架构不仅解决了原有系统在稳定性、弹性、运维效率等方面的痛点,还在成本控制、API 治理、可观测性、DevOps 自动化等方面实现了全方位升级。
178 1
|
5月前
|
存储 弹性计算 Cloud Native
云原生数据库的演进与应用实践
随着企业业务扩展,传统数据库难以应对高并发与弹性需求。云原生数据库应运而生,具备计算存储分离、弹性伸缩、高可用等核心特性,广泛应用于电商、金融、物联网等场景。阿里云PolarDB、Lindorm等产品已形成完善生态,助力企业高效处理数据。未来,AI驱动、Serverless与多云兼容将推动其进一步发展。
271 8
|
7月前
|
运维 Kubernetes Cloud Native
分钟级到秒级:Yahaha 基于 OpenKruiseGame 的 UE5 游戏云原生实践
回顾《STRIDEN》项目在短短两个月内完成云原生转型的历程,它验证了一条清晰、可行的路径,即如何利用云原生技术,从根本上解决现代在线游戏所面临的运维复杂性难题。
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
454 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
6月前
|
运维 监控 Cloud Native
从本土到全球,云原生架构护航灵犀互娱游戏出海
本文内容整理自「 2025 中企出海大会·游戏与互娱出海分论坛」,灵犀互娱基础架构负责人朱晓靖的演讲内容,从技术层面分享云原生架构护航灵犀互娱游戏出海经验。
601 15
|
6月前
|
运维 监控 Cloud Native
从本土到全球,云原生架构护航灵犀互娱游戏出海
内容整理自「 2025 中企出海大会·游戏与互娱出海分论坛」,灵犀互娱基础架构负责人朱晓靖的演讲内容,从技术层面分享云原生架构护航灵犀互娱游戏出海经验。