如何一键接入opentelemetry项目,实现可观测分析

简介: 本文揭秘如何通过Databuff实现OpenTelemetry的无缝接管,无需改造现有Collector,10分钟完成部署,实现服务与资源间的因果可观测性,呈现云网空间地图,助力运维智能化。

前言

Opentelemetry 是一款开源的可观测项目,经常被开发人员使用。然而真的想在生产环境上线、将其大规模推广使用,会遇到各种想象不到的挑战。

Databuff 作为一款商业化的可观测工具,为此专门开发了相关特性、用以接管 opentelemetry,能够真正实现 零改造 opentelemetry collector、并直接给出云网空间地图的效果。今天就给大家揭开这层面纱,看看实现后的效果如何。

 

01 从一个危险的认知说起


“用了 OpenTelemetry,就等于拥有了可观测性”

一个危险的认知在运维圈内悄然蔓延:用了 opentelemtry,就等于拥有了可观测性,这几乎成了一种技术迷信。正是在这种认知下,很多甲方为了运维、研发部门的实际生产需求,敲着会议室白板上复杂的技术架构图,兴奋的上线了 opentelemetry 自研项目。


然而随着开发的逐步深入,一堆问题显现出来:

  1. 开源探针不稳定,经常把业务“干宕”
  2. 银行系统各种专有协议/组件,没有探针开发人员做适配。

3. 架构设计像 “大杂烩”,来一个需求、上一套组件,研发表示 carry 不动。

4. 自研后端性能不行,业务高峰一来,平台直接 “躺平”

5. 没有产品设计,功能设计支离破碎、前言不搭后语,业务部门疯狂 diss

6. 日常工作从“业务保障”变成了“自研项目保障”,维护成本比购买商业软件高太多。

接下来,笔者就带大家见识一下,如何优雅的把 opentelemetry 项目接管过来。


02 零改造原项目,10 分钟见证奇迹


甲方原有 opentelemetry 项目做了大量的工作,如探针部署实施、协议改造适配、与 prometheus 等数据的清洗关联。

本次方案在保留原有 opentelemetry 采集端工作的既有基础上,引入 databuff 平台,只需 10 分钟、两个步骤,立马见到因果可观测的落地。

两个步骤:

1)collecotr 接入 datahub 可视化编排管道;

2)daemonset 控制器在每个 Node 上部署一枚 oneagent 探针;


接下来,让我们一起了解配置详情及实现效果。


2.1 datahub 接收 opentelemetry collector 的数据

创建 Pipeline

  1. 在部署配置 -> 安装部署 -> 数据接入 选择管道模版,创建一个可以接收调用 OTLP 调用链的 Pipeline,直接启动该 Pipeline 即可


点击“新建管道”


点击 OpenTelemetry 算子,右侧详情内容,复制<监听 URL>


配置 Opentelemetry Collector  

在 Opentelemetry Collector 运行的 yaml 配置文件中,添加如下 exporter:

exporters: # 添加otlphttp exporter  otlphttp:    traces_endpoint: "<监听URL>/v1/traces"    metrics_endpoint: "<监听URL>/v1/metrics"receivers: # 客户现场自定义,无需修改  otlp:    protocols:      grpc:        endpoint: "0.0.0.0:14317"      http:        endpoint: "0.0.0.0:14318"processors:service: # 无需修改
  pipelines: # 在需要转发的Pipeline中,添加 otlphttp exporter    traces01:      receivers:        - otlp      processors: []      exporters:        - jiangsuexport01        - otlphttp    metrics01:       receivers:        - otlp      processors: []      exporters:        - otlphttp


自此,接入 opentelemetry collecotr 的 pipeline 管道配置完成。

2.2 daemonset 控制器一键部署 oneagent

databuff 平台选择环境,部署配置-> 安装部署 -> OneAgent,选择操作系统,直接复制安装命令,一键安装


自此,oneagent 探针部署完成。接下来就登录 databuff 后端查看数据效果。

2.3 因果可观测效果

我们查看该数据管道的状态,发现已经有数据量上来了。


点击“空间地图”,实现的效果如下:


1)这种方案依然实现了空间地图的系统性展示,各 service 节点的基础依赖能够在垂直拓扑中关联起来;

2)除了服务调用,host 相互调用、process 相互调用,能够在水平拓扑中实时绘制起来;

我们继续点击标红的主机节点:host154,查看其资源信息以及服务信息:



点击“系统拓扑”,实现的效果如下:


可查看服务间、系统间调用关系,访问量,以及请求响应指标。


结语:如上,我们通过 datahub、oneagent 两个组件,实现了 opentelemetry 自研项目的数据接管,同样也实现了因果可观测中的空间地图特性,打通了服务与基础资源之间的依赖关系,各基础资源的水平拓扑。我们将这些因果观测数据吐给专门的 aiops 中台(或内置的 aiops 引擎),可以更好的进行运维智能场景的开发落地。

后面的文章,我们会更多的分享,databuff 如何基于开源项目、实现运维智能。

相关文章
|
存储 Prometheus Kubernetes
OpenTelemetry 简析
OpenTelemetry 是 CNCF 的一个可观测性项目,旨在提供可观测性领域的标准化方案,解决观测数据的数据模型、采集、处理、导出等的标准化问题,提供与三方 vendor 无关的服务。 2021.02.10,OpenTelemetry 的 tracing spec 达到 1.0 版本 (link),基于这个里程碑,笔者对 OpenTelemetry 进行了探索,判断在可观测性领域带来的价值和发展前景。 下面给出笔者对 OpenTelemetry 的理解,抛砖引玉。由于笔者能力有限,理解不当的地方请大家指正。
OpenTelemetry 简析
|
4月前
|
人工智能 安全 Java
分布式 Multi Agent 安全高可用探索与实践
在人工智能加速发展的今天,AI Agent 正在成为推动“人工智能+”战略落地的核心引擎。无论是技术趋势还是政策导向,都预示着一场深刻的变革正在发生。如果你也在探索 Agent 的应用场景,欢迎关注 AgentScope 项目,或尝试使用阿里云 MSE + Higress + Nacos 构建属于你的 AI 原生应用。一起,走进智能体的新世界。
1048 63
|
存储 数据采集 监控
SkyWalking全景解析:从原理到实现的分布式追踪之旅
SkyWalking全景解析:从原理到实现的分布式追踪之旅
2647 1
|
3月前
|
运维 监控 数据可视化
故障发现提速 80%,运维成本降 40%:魔方文娱的可观测升级之路
魔方文娱携手阿里云构建全栈可观测体系,实现故障发现效率提升 80%、运维成本下降 40%,并融合 AI 驱动异常检测,迈向智能运维新阶段。
397 54
|
2月前
|
机器学习/深度学习 人工智能 运维
AIOps已逝,欢迎进入AgenticOps(运维智能体)时代
GenAI和智能体技术的爆发,为IT运维打开了一扇新的大门,一个更具主动性、自治性和协作性的新时代已经来临,这就是AgenticOps(基于智能体的IT运维)。
|
5月前
|
数据采集 人工智能 监控
零代码改造!LoongSuite AI 采集套件观测实战
在 AI 时代,随着模型和应用侧的快速演化,对于推理过程,成本和性能显得尤为重要,而端到端的 AI 可观测是其中至关重要的一环。本文将介绍端到端 AI 可观测的基本概念与痛点,并通过阿里云可观测团队最新开源的 AI 采集套件 LoongSuite Agent 来对大模型应用进行全链路可观测以解决这些痛点。帮助客户无侵入,低成本地进行全链路的大模型可观测。
539 54
零代码改造!LoongSuite AI 采集套件观测实战
|
2月前
|
消息中间件 人工智能 NoSQL
AgentScope x RocketMQ:打造企业级高可靠 A2A 智能体通信基座
基于 RocketMQ SDK 实现了 A2A 协议的 ClientTransport 接口(部分核心代码现已开源),并与 AgentScope 框架深度集成,共同构建了全新的 A2A 智能体通信基座,为多智能体应用提供企业级、高可靠的异步协同方案。
452 57
|
3月前
|
运维 Prometheus 监控
监控体系大一统:OpenTelemetry 就是运维人的“鸿蒙”
监控体系大一统:OpenTelemetry 就是运维人的“鸿蒙”
435 10
|
3月前
|
监控 应用服务中间件 nginx
Agentic 时代必备技能:手把手为 Dify 应用构建全链路可观测系统
本文讲述 Dify 平台在 Agentic 应用开发中面临的可观测性挑战,从开发者与运维方双重视角出发,系统分析了当前 Dify 可观测能力的现状、局限与改进方向。
660 64
|
7月前
|
数据采集 人工智能 Java
阿里云正式开源 LoongSuite:打造 AI 时代的高性能低成本可观测采集套件
AI Agent技术架构的演进正在重塑软件工程实践方式。开发者可通过智能编程助手提升效率,也可依托专业框架构建智能体系统。技术生态呈现多维度发展,涵盖高代码与低代码方案,并支持Java和Python等多语言。新型开发范式如AutoGen和LangChain降低了开发门槛。LoongSuite作为可观测采集套件,助力企业高效构建AI时代可观测体系,推动标准化数据规范,提升系统稳定性与运维效率。