自 3 月 30 日阿里云发布首个面向 Agent 的操作系统——Agentic OS以来,我们收到了许多用户的热烈反馈。其中被提及频率最高的莫过于“我怎么才能去极致降低 Token 消耗?”这个问题的背后其实是多个小问题:Token 账单数字那么大,这些 Token 是哪个 Agent 花的?花在哪一步了?有没有浪费?
浪费的无效 Token 是要节省的。而省无效 Token 的前提,是先看见 Token 花在了哪里。在过去,Token 消耗就是一个黑箱——你只知道月底的总数,不知道每一笔的去向。就像收到一张只写了合计金额的信用卡账单,你想省钱,但连哪笔该砍都不知道。
近期,Agentic OS(ANOLISA)上线了多重功能,其中 AgentSight 组件提供了能看清 Agent 全局状态和每笔 Token 去向的可视化面板。
AgentSight 是 Agentic OS(ANOLISA)的可观测组件,解决 Agent 运行中 Token 消耗远超预期、用户缺乏感知与追溯手段的问题。它在零侵入业务逻辑的前提下,实现对 Agent 运行全链路的细粒度数据采集与关联分析。
一屏掌控:Agent 的健康和花销,不用再猜
你让 Agent 7×24 小时跑着,处理工单、执行巡检、回应请求。但你不可能 7×24 小时盯着它。这是 Agent 运维最基本的矛盾。
过去,你可能遇到过这些场景:Agent 在后台悄悄卡死了,你直到下一次打开终端才发现;关键任务中断了,没有任何人提醒你;Token 悄悄跑了几十万,月底账单才让你意识到成本失控。看不见,就无法管理。
AgentSight 组件的可视化面板把这些“看不见”变成了“一屏尽览”。打开面板,你能看到在 Agentic OS(ANOLISA) 上 Agent 的健康状态、活跃会话和异常中断——哪些在线、哪些离线、哪些正处于卡死状态。数据实时刷新,从全局概览到单个对话,信息层级清晰。
(图/AgentSight 组件可视化面板)
当 Agent 离线或卡死时,AgentSight 不只是告诉你“出问题了”。它会自动发出告警,并支持触发重启,让 Agent 快速恢复运行——从故障发现到系统恢复,大幅减少人工介入。
Agent 的每一次心跳,你都看得见。若出了问题,不用等第二天早上才知道。
Token 逐笔拆账:花了多少、花在哪、为什么花?
你可能听过一句话:“不能度量的东西就无法优化。”Token 消耗也是如此。
一个小案例——查看天气
我们看一个让人大跌眼镜的小任务——查天气。
用户询问:“杭州的今日天气”。这是一个极其简单的单轮查询,预期的 Token 消耗应该非常低——用户输入不超过 20 个 Token,系统提示词在数百 Token 级别,一次工具调用加上响应也不过数千 Token。
但实际消耗是多少?花了 14 万 Token。但你无法分辨哪些是无效 Token,以此来避免不必要的浪费。
通过 AgentSight 的可视化面板可以观察到 Token 消耗数数据,如下图所示。根据选用的模型不同花费的 Token 可能存在差异,但一般是输入Token 远大于输出 Token 数下文中我们会继续分析,从而得知,绝大部分算力都浪费在了重复读取旧的历史记录上。
(图/AgentSight 可视化面板观察到的 Token 消耗数据)
为什么会有如此巨大的消耗?
我们通过 AgentSight 可视化界面可测到事件详情。从下图中可以看到,当用户询问“杭州今日天气”后,Agent 共产生了两次大模型调用,每个大模型调用的 Token 用量与耗时都清晰可查。每增加一次工具调用,历史消息就多“回放”一次,token 成本呈线性甚至超线性增长。下图中,两次工具调用分别查看了天气的 skill 并根据 skill 查询具体的天气,输入 Token 数越来越多,历史消息不断回放。
(图/调用过程)
(图/Agent 输出结果)
AgentSight 组件将 Token 消耗按会话级和对话级两个维度进行拆解分析。通过这种粒度,用户可以清晰定位问题:是某个 Agent 整体消耗过高、单次对话 Token 使用异常,还是详情中某个 Skill 在反复调用中产生浪费。
会话级:每个 Agent 在每次会话中消耗了多少 Token,一张图看全局分布。你可以一眼找到那个“最烧钱”的 Agent,或者发现某次异常会话的 Token 消耗远超均值。
对话级:深入到单条对话链路中,追踪 Token 的变化趋势——是 System Prompt 占了大头,还是 History 窗口膨胀,还是某个 Skill 调用的输入特别冗长?每一笔都有去向。
(图/会话级别与对话级示意图)
还能按时间段、按 Agent 维度做趋势对比。上周花了多少,这周花了多少,哪天出现了异常波动——模式清清楚楚。
(图/通过时间、Agent、模型等多个维度查询实例)
看清了“花了多少”和“花在哪”之后,下一个问题自然是“为什么花在这里”。AgentSight 组件后续也将提供轨迹分析能力——从任务接收、工具调用、决策分支到最终输出,全链路回放。你可以看到 Agent 在什么节点调用了什么 Skill、走了哪条分支、在哪个环节吃掉了最多的上下文窗口。定位到冗余路径后,有针对性地优化 Agent 的行为设计,省下来的无效 Token 就是实打实的钱。
Token 从一个月底的“总额”,变成了一本随时可查、可追溯、可优化的“明细账本”。
用如何使用 AgentSight 组件:查看你的第一笔Token明细
AgentSight 组件可以在阿里云上使用,也可以在本地部署,使用方法请参考:
云上使用:
https://help.aliyun.com/zh/alinux/how-to-use-agentsight
本地部署:
https://github.com/alibaba/anolisa/blob/main/src/agentsight/README_CN.md
Agentic OS(ANOLISA)新功能速览
4 月 15 日,Agentic OS(ANOLISA)发布 v0.2 版本。核心组件功能更新如下:
- 小规格实例(2C2G)初始可用内存提升 20%~30%,OpenClaw 并发会话数量提升 200+%、Agent 冷启动时间显著降低;
- Copilot Shell 认证界面全面升级,内置多种模型提供商快捷配置,Aliyun 认证支持 RAM 角色一键授权;
- AgentSight 新增可视化面板,提供 Agent 实时健康监控、离线告警、卡死进程重启能力,支持会话、对话级的 Token 消耗分析、Agent 轨迹分析;
- Agent-Sec-Core 支持 Skill 完整性自动化校验(签名校验);
- OS Skills 内置技能“sysom-diagnosis”支持完整系统诊断能力;
- 新增 Token-Less 优化工具包,通过模式压缩、响应压缩及命令重写三大核心策略,降低上下文窗口的 Token 消耗并提升运行效率。
相关文章阅读:
Agentic OS 实战指南:手把手教你从 ANOLISA 源码安装
阿里云发布 Agentic OS:首个面向 Agent 的操作系统
入群交流
想亲手看看你的 Agent 到底花了多少 Token?现在可以开始部署 AgentSight 组件查看你的第一笔 Token 明细账了。欢迎加入 Agentic OS钉钉交流群(群号:90400034325)聊聊你的 Token 账单故事。
—— 完 ——
2026 年 3 月,阿里云推出首个面向 Agent 的操作系统—Agentic OS(ANOLISA),它既可以在阿里云产品上使用,也可以通过开源项目获取在本地部署。我们正在进入新的智能操作系统范式 Agentic OS 时代,而 ANOLISA 是落地新范式的入口。我们通过 ANOLISA 重新定义了操作系统,为您带来完整的 Agentic OS 体验。用 ANOLISA,构建你的 Agentic OS!