GIAC-2022sh 学习笔记 | 云原生时代的可观测体系在大规模应用中的落地实践
http://www.thegiac.com/2022sh/schedule
云原生时代的可观测体系在大规模应用中的落地实践
闫鹏
阿里云智能高级技术专家
个人简介
- 目前就职于阿里云智能云原生应用平台部门
- 阿里云可观测产品ARMS技术负责人
- 在云计算/PaaS/中间件领域工作10年+
- 主导了从阿里巴巴鹰眼监控产品到公有云可观测产品的体系建设及系统架构演进
- 在分布式链路追踪,根因诊断,开源技术以及产品商业化等方向具有丰富的实战经验。
OpenTelemetry的前世与今生
OpenTelemetry横空出世
可观测领域的两大阵营
- OpenTracing:CNCF(Cloud Native Computing Foundation)的项目,提供与厂商无关的API及规范, 使应用能够快速具备Tracing能力,如Zipkin、Jaeger都遵循此协议。
- OpenCensus:Google公司主导的开源项目,Dapper的社区版本,在应用中快速集成Metrics和Tracing, 不仅仅提供规范,还提供Agent、Collector等组件。
OpenTelemetry的架构设计
OpenTelemetry不是像Jaeger、Prometheus这些开源项目一样具备存储、查询、以及Dashboard的能力。 相反,它提供了一个可插拔的体系结构,能够将数据导出到各种开源和商业化产品的后端服务。
开源项目、商业化产品之间的关系
相比Zipkin、Jaeger拥有更加优秀的设计理念
- 全面消除厂商的 Lock-on 隐患
- 提供标准化的Instrumentation框架
- 提供可插拔的能力,服务选择更加自由
- 提供多种数据源,系统对接灵活
- 规范的制定、协议的统一
- API语言无关,定义Metrics、Trace、Logs数据类型及操作
- SDK根据不同API来实现,定义配置、数据处理和导出过程
- OTLP原生标准协议定义,同时支持Thrift等多种协议扩展
- 多语言、多环境的支持
- 支持C++、.NET、Go、Java、PHP等10+种不同语言的SDK
- 提供Host、Docker、以及Kubernates等多种不同环境下的接入方案
- 通过Collector实现与不同开源及商业化产品数据的无缝对接
开源、商业化产品之间的关系
- 应用场景: OpenTelemetry等开源产品 阿里云ARMS可观测套件 (商业化产品)
- 接入成本
- 系统运维
- 采集器(探针)管 理
- 可视化展示
- 安全性
- 根因定位能力
- 统一监控
- 可扩展性与服务性
从0到1落地可观测体系的三大挑战及解决方案
实际生产环境下构建可观测体系的三大挑战
- 数据孤岛: 挑战一:数据的孤岛、监控工具的孤岛导致无法释放数据的关联价值。
- 高昂成本: 挑战二:多探针、数据、环境的多样化带来的高昂运维及存储成本。
- 场景复杂: 挑战三:异构系统的互通、异步调用等场景复杂化为最终落地增加了难度。
打破数据孤岛的三个要素
- 将三个柱子,变成互相连接的一股绳子
- 指标 调用链 日志 (Metrics) (Trace) (Logs)
- 三个要素: 数据采集 模型定义 关联分析
三个柱子+三个要素的落地方案
Metrics(指标) Trace(调用链) Logs(日志)
与存量监控系统工具的互联与互通
Kubernates场景下探针自动接入的技术方案
- 探针种类繁多
- 探针版本管理
- 业务遇到问题,探针如何快速回滚 探针如何安装
预聚合、链路压缩实现低成本的无损统计与传输
通过预聚合的实现原理,捕捉每一次真实请求,先聚合,后采样,再上报,从而实现无损统计,端侧成本降低80%。
冷热数据分离,进一步降低存储成本
- 热数据实时分析:30分钟全量调用链、实时查询 &分析,满足在线诊断需求。
- 冷数据精准采样:根据链路特征自定义采样策略 (Tail-based Sampling),只持久化存储需要的 调用链(比如错慢调用),大幅降低存储成本。
不同Trace协议下异构系统无法实现互通
异步场景下的断链影响准确性与完整性
落地完整可观测体系的技术架构
可观测的未来与展望
行业发展趋势
- 伴随运维能力下沉,可观测重要性得到进一步提升。
- 多云、混合云架构应用,为可观测体系的建设带来新的机遇与挑战。
- 打破数据孤岛、系统融合、统一监控运维等诉求变得更加强烈。
- 可观测在IT成本治理、业务运营等细分领域逐渐被广泛应用。
可观测技术的演进
- 开源技术栈进一步收敛(Prometheus、OpenTelemetry、Grafana)
- eBPF 技术由初始阶段进入发展阶段,逐步在生产环境中应用。
- eBPF 与开源APM项目强强联合,持续释放技术红利。