Litefuse 正式发布:Agent 可观测与效果评估, 比 Langfuse 成本低 88%

简介: Litefuse 是一个 Agent 可观测与评估平台,兼容 Langfuse SDK 和 100 多个 AI 生态,并支持 Hermes、OpenClaw、Claude Code 等通用 Agent。存储成本比 Langfuse 降低 88%、简化部署架构、Trace 文本检索效率提升 10 倍,帮助团队以更低成本构建可靠的观测平台。

Agent 时代,开发一个 Agent 正变得越来越容易,真正困难的是:如何保证它在真实业务中持续可靠地工作。

传统日志和 APM 可以告诉你接口是否返回成功、延迟是否正常、系统是否稳定,却很难回答:

  • Agent 为什么选择了错误的工具?
  • 为什么某次任务规划走偏了?
  • 为什么同样的问题,这次回答正确,下次却出现幻觉?
  • 模型、Prompt、工具或上下文升级后,Agent 的真实效果到底变好了还是变差了?

这正是 Litefuse 要解决的问题。

Litefuse 是面向 Agent 的可观测与评估平台,帮助开发者通过 Evaluation Driven Development,也就是 EDD 的“观测 - 评估 - 优化”循环,将 Agent 的运行过程从黑盒变成可追踪、可分析、可量化、可持续改进的工程体系。

Litefuse 已经正式上线并提供免费使用额度,现在你可以通过下面这一句提示词用 AI Native 的方式让 Agent 自动对接好 Litefuse,开启 Agent 可观测之旅。

Read https://litefuse.ai/SKILL.md and follow the instructions to install and configure Litefuse.

Agent 的可靠性面临新挑战

在 AI Agent 时代,随着 Coding Agent 能力大幅增强,开发一个 Agent 不难,难的是如何保证 Agent 在实际业务中的运行效果。

Agent 的可靠性面临着比传统软件更大的挑战。一方面,传统软件面临的逻辑正确性、运行健壮性、高峰压力、基础设施稳定性等问题,Agent 作为一个软件也同样存在。另一方面,大模型幻觉、路径规划错误、工具调用失败、上下文记忆腐化等 GenAI 特有的问题,让 Agent 的效果变得不可靠,比如最近 Opus 从 4.6 升级到 4.7 在某些方面反而降智,某次工具升级可能参数和语义发生变化。

1-agent可靠性挑战.PNG

要回答这个问题,仅有日志是不够的。开发团队需要看到 Agent 每一步做了什么、为什么这么做、输入输出是什么、最终效果如何,以及这些效果能否被持续量化。

从 TDD 到 EDD:Agent 时代需要新的工程方法论

在传统软件时代,Test Driven Development,简称 TDD,是提升软件质量的重要方法。

TDD 通过“增加测试用例 - 写代码通过测试 - 重构优化”的循环,帮助开发者持续保证代码逻辑正确。异常测试、压力测试和传统可观测体系,则进一步保证系统在复杂环境下稳定运行。

对于 AI Agent,通过上面的手段保证系统稳定、逻辑正确的运行还远远不够。因为 Agent 的核心问题不只是 HTTP 接口返回 200、延迟很低,而是:Agent 的输出是否符合预期?执行路径是否合理?工具调用是否正确?整体效果是否持续稳定?

因此,Agent 时代需要一种新的工程闭环:Evaluation Driven Development,简称 EDD。

2-EDD 方法论.PNG

EDD 的核心是 “观测 - 评估 - 改进” 循环,在这个循环里面:

  1. 观测:Agent 行为不再是黑盒

Agent 可观测关注的重点,不只是服务是否稳定、接口是否报错、延迟是否变高,而是 Agent 的行为和效果。一次完整的 Agent Trace 应该记录模型请求、用户输入、系统提示词、思考过程、工具调用、检索结果、上下文、输出结果、Token 使用量等关键步骤。有了这些 Trace,开发者可以回放一个具体 bad case 的完整执行过程,也可以将真实线上数据沉淀为后续评估的数据基础。

  1. 评估:Agent 效果可以被量化

评估基于观测数据和测试数据集进行。评估方法可以是程序规则、人工标注,也可以是 LLM 自动评测。评估数据既可以来自离线构造的数据集,也可以来自线上 Trace 和用户反馈。通过评估,团队可以知道 Agent 在准确性、完整性、安全性、工具调用正确性、任务完成率等维度上的表现。

  1. 改进:对 Agent 效果进行提升

当评估发现 bad case 后,开发者可以针对 Prompt、工具、知识库、工作流、记忆策略或模型配置进行优化。优化完成后,再通过同一批数据集进行评估,量化判断效果是否真正提升。只有当评估结果达到预期后,再进入线上发布。

EDD 让 Agent 的效果分析变得更透明、可量化。Agent 的效果分析不再依赖猜测,而是基于真实运行数据;Agent 的效果好坏不再依赖主观感觉,而是通过真实数据集和评估来量化。

Litefuse:将 EDD 产品化的 Agent 可观测与评估平台

EDD 的完整闭环中,“改进”通常由 Agent 开发团队完成,而“观测”和“评估”则需要平台和工具支撑。Litefuse 正是为这个场景设计的。Litefuse 将 Agent 的 Trace 采集、存储、可视化分析、数据集管理、实验运行和评估流程产品化,帮助开发者以更低成本、更低运维复杂度构建 Agent 可观测与评估工作流

基于 Litefuse 的 一个典型 Agent Evaluation Driven Development 流程如下:

  1. 准备一批初始测试数据集 (Dataset),一般也叫做离线测试数据集,可能来源于人类专家构建和标注,包括输入和预期的输出,包括正常 case、corner case、估计对抗的 case 等。
  2. 开发 Agent。
  3. 在离线测试数据集运行一次实验 (Experiment),得到 Agent 在每条测试数据上的输出,然后运行评估 (Evaluation),根据测试数据集的输出和 Agent 的输出打分,打分可能是分类、0-1 或者数值分数。这个评估打分过程可以是人工标注,也可以是配置 LLM 和提示词自动完成。
  4. 评估的结果达到预期可以上线,达不到预期则根据评估产生的 badcase 进行优化,然后再进行评估,直到效果达到预期。
  5. 上线后通过 Litefuse SDK 对 Agent 进行持续观测,将全量或者采样的观测数据放入在线测试数据集,对这个数据集进行持续评估,一旦发现效果退化,需要分析改进 Agent,再评估达标后进行线上升级。
  6. 在线测试数据集中有价值的部分,特别是产生 bad case 的数据,再放回离线测试数据集,在主动更新 Agent 比如发布新版本时,用离线测试数据集进行评估效果,判断能否上线。

3-litefuse.png

为什么 Litefuse 更适合大规模 Agent 可观测

Langfuse 是一个优秀的 LLM Engineering Platform。它提供丰富的 AI 生态集成,包括大模型厂商如 OpenAI, Anthropic 的 SDK,AI 开发工具如 LangChain, Dify 等 100 多个生态对接,开发者可以很容易和自己的 Agent 集成;在可观测数据建模和用户界面上体现了 AI Native 的元素如 LLM 请求、Tool 调用、Retrieval、Token usage 等,对 AI 开发者、产品等业务角色很友好;还提供了 Prompt 管理和 Evaluation 功能,帮助开发者进行 Agent 评估优化。

我们在用户访谈的过程中,也发现使用 Langfuse 的一些痛点:

  • 存储成本高。有的用户反馈几万月活的 Agent 产生了 TB 级的 Langfuse 存储,AI 可观测的成本已经成为整个 Agent 成本中很大一部分,而且现在还是较小规模,将来扩大 100 倍、1000 倍成本将难以承受。
  • 架构复杂。Langfuse 的架构有 6 个组件,自身服务的 Web 和 Worker,Redis 做队列和缓存,Minio 做写入 buffer,Postgres 做 OLTP 存储元数据,Clickhouse 做 OLAP 存储可观测数据。很多用户反馈部署和维护复杂,特别是在一些交付到客户的场景带来很大的负担,有的用户甚至尝试回退到早期只用 Postgres 的版本,但是损失很多功能体验明显下降。
  • 文本检索慢。Langfuse trace 搜索底层使用数据库 LIKE,LIKE 需要全量扫描数据进行字符串匹配,数据量大的时候 IO 和 CPU 资源消耗很高,查询响应慢。

因此,我们在 Langfuse 的基础上进行改进推出 Litefuse,存储系统采用 Apache Doris,为用户带来下面一些收益

01 成本降低 88%

在 OpenClaw 短对话、长对话、超长对话等典型 Agent 对话数据测试中,相同数据下,Litefuse 相比 Langfuse 的存储空间分别降低 65%、88%、88%。

这意味着,同样的预算下,团队可以保存更多 Agent Trace、更长历史周期,或者支撑更多 Agent 的持续观测与评估。

4-成本.png

在高达 88% 的存储空间节省背后,是 Litefuse 和 Doris 针对 Agent 可观测数据的优化。

  1. Litefuse 使用 Doris VARIANT 数据类型存储 Trace 中的 input output 文本字段,input output 绝大多数情况是 JSON 格式,VARIANT 将 JSON 拆分成字段子列存储,利用列式存储的高压缩比降低存储空间,非 JSON 格式也能自适应存储成字符串。
  2. Doris 支持存算分离模式,只需要写入一次、存储一份数据,不需要多个副本的存储空间和写入计算资源开销,存储空间和写入计算资源都降低 50%。
  3. Doris 存算分离模式将数据存储在对象存储或者 HDFS 等廉价的存储上,进一步降低实际付出的存储成本。

02 架构简洁轻量,单机可以极简到 1 个进程

Litefuse 利用 Doris 的实时写入和服务端 group commit 能力,去掉了原本用于写入缓冲的 MinIO,减少中间写入链路,提升可观测数据实时性。同时,Litefuse 利用 Postgres 插件实现异步队列能力,不再依赖 Redis。整体架构从 6 个组件减少到 3 个组件。在单机版本中,Litefuse 进一步将组件合并为单进程形态,单机也能轻松处理 TB 基本的数据,团队可以用极简方式完成部署和维护。

5-架构精简.png

03 文本检索加速 10x

Agent 可观测场景中,经常有这样的情况,内部测试或者用户反馈了一个 bad case,怎么快速找到对应的 trace 进行分析?通常会根据对话的内容去 input output 里面搜索,对应到产品中如下图的功能。

6-文本检索.png

Litefuse 基于 Doris 倒排索引搜索 trace input output 文本时,能够做到秒级返回,速度比 Langfuse LIKE 方式提升 5-10 倍。Doris 早在 2023 年开始支持了倒排索引,被 MiniMax、阶跃星辰、字节、快手、腾讯、阿里、百度、网易等数百家公司大规模应用于 PB 级生产环境。

04 支持通用 Agent 开箱即用

Litefuse 兼容 Langfuse SDK,保留了对 100 多个 AI 生态的支持,包括 OpenAI SDK、Anthropic SDK、LangChain、Dify 等。Litefuse 特别增强了对 Hermes、OpenClaw、Claude Code 等通用 Agent 的支持。通过 Hook 插件,Litefuse 可以采集更丰富的 Agent Trace 信息,并在 Dashboard 中分析 Agent 的执行过程、成本、性能和安全相关指标。

Langfuse 目前还不支持 Hermes Agent,对 OpenClaw 的支持是通过 OpenRouter 采集大模型调用信息,缺失了 Agent 本身的行为数据,对 Claude Code 的支持很简单,比如基础的时间戳不正确不是实际发生时间。

7-开箱即用.png

以 Claude Code 为例,当用户输入:

research and write a report about agent observability and evaluation

Litefuse 可以观测到更完整的执行步骤,包括 user message、thinking、text response 等详细过程;每一步元数据也会被忠实记录,并统一放在 claude_code 层级字段下,方便后续查询、分析和评估。

Langfuse:
8-langfuse 截图.png

Litefuse:
9-litefuse 截图.png

相比只看到模型请求,完整的 Agent Trace 能帮助开发者真正理解 Agent 的行为,并将线上 bad case 转化为可持续改进的数据资产。

马上使用 Litefuse 开启 Agent 可观测之旅

Litefuse 官网SaaS 产品已经上线,并提供 10 万条数据存储 1 个月的免费使用额度,现在就可以注册账号立即使用。

如果你正在使用 Hermes、OpenClaw、Claude Code,也可以直接通过一句 Prompt,让 Agent 自动完成 Litefuse 接入:

Read https://litefuse.ai/SKILL.md and follow the instructions to install and configure Litefuse.

Litefuse 也已经在阿里云 SelectDB 提供服务。如果你正在使用阿里云,可以在阿里云 SelectDB 产品中开启独享 Litefuse 实例

此外,Litefuse 计划在 6 月发布开源版本。开源版本将支持更轻量的单机部署,单机形态可极简到 1 个进程,可以轻松处理 1TB 以内的数据。

目录
相关文章
|
5天前
|
存储 人工智能 监控
Nacos Skill Registry:面向个人场景的 Skill 中心实践
构建个人 Skill 技能中心,实现多 Agent 复用与协作。
|
7天前
|
人工智能 运维 前端开发
给 Hermes 装上显微镜:Agent 执行全知道
阿里云 Hermes 可观测插件基于 OpenTelemetry,追踪 Agent 推理、工具调用、Token 消耗、时延与安全风险,帮助定位成本高、响应慢、工具异常等问题。
|
22天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
7423 18
|
7天前
|
缓存 网络协议 测试技术
【免费CDN】阿里云ESA免费版配置,10分钟搞定
阿里云ESA免费版0元开通!含CDN加速、DDoS防护、WAF拦截、Bot管理及HTTPS支持,适合个人站与测试环境。6步完成:领额度→加站点→选免费版→配源站→改DNS→验证生效,全程无需付费。
【免费CDN】阿里云ESA免费版配置,10分钟搞定
|
4月前
|
存储 人工智能 Cloud Native
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
MiniMax 作为上市大模型企业,基于阿里云 SelectDB 打造 AI 可观测中台,实现“一个平台,全球覆盖”。这一成功实践足以表明:SelectDB 能够很好满足 AI 时代海量数据实时处理与分析的需求,为同样需求的 AI 大模型企业提供了一个高性能、低成本的可靠技术解决方案。
412 5
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
|
22天前
|
自然语言处理 安全 测试技术
大模型+超自动化:实在Agent从“句意理解”到“跨系统闭环执行”的技术链路
本文剖析实在Agent“六层闭环技术架构”,直击企业级智能体落地核心痛点——“认知-执行断层”。通过垂直大模型+全栈超自动化深度融合,实现从自然语言指令到跨系统业务闭环执行的端到端自主化,兼具国产化适配、强合规与高稳定性,为AI工程化提供可落地的技术范式。
|
18天前
|
数据采集 人工智能 自然语言处理
舆情监控:如何让AI自动抓取新闻资讯,并生成每日摘要报告?
本文介绍一套AI驱动的自动化舆情监控方案:用站大爷隧道代理(高可用IP轮换)+ OpenClaw(零代码AI Agent)+ 大模型(智能摘要),7×24小时自动抓取、筛选、生成并推送结构化日报,彻底解决人工扫新闻耗时多、漏报频、易被封等问题。(239字)
259 9
|
1月前
|
应用服务中间件
手慢无!阿里云轻量服务器2026最新秒杀价:2核4G配置199元/年,200M带宽不限流
阿里云2026轻量服务器秒杀开启!轻量应用服务器官方页面:https://t.aliyun.com/U/PEdlFP 新用户专享:2核2G低至38元/年(9.9元/月限时抢),2核4G仅199元/年,4核8G/16G分别1159元、1599元/年。全系配200M峰值带宽+不限流量,性价比远超友商。手慢无!
|
6月前
|
存储 SQL 搜索推荐
货拉拉用户画像基于 Apache Doris 的数据模型设计与实践
货拉拉基于Apache Doris构建高效用户画像系统,实现标签管理、人群圈选与行为分析的统一计算引擎,支持秒级响应与大规模数据导入,显著提升查询效率与系统稳定性,助力实时化、智能化运营升级。
579 14
货拉拉用户画像基于 Apache Doris 的数据模型设计与实践
|
18天前
|
人工智能 测试技术 调度
移动端 RPA 的架构重构:基于多模态视觉大模型的自动化调度系统压测复盘
本文复盘企业级移动端RPA重构实践,介绍如何以“侠客工坊”AI数字员工平台替代传统坐标录制方案:基于多模态大模型实现视觉语义决策、高并发多机型调度、零代码编排、异常自愈及MCP协议集成,显著提升自动化鲁棒性与运维效率。
137 10