智谱市值5000亿背后,我的传统RAG项目正被AgentRAG“逼宫”

简介: 本文剖析AgentRAG如何革新传统RAG范式:通过ReAct循环实现“思考→检索→评估→再检索”,将复杂问题命中率从40%提升至89%,显著降低幻觉率。对比实测揭示其本质是“前置理解+动态规划”,虽延迟略增,但准确率跃升。文末探讨循环轮次设定等现实挑战。(239字)


别再迷信“检索一次就够了”,阿里悟空和AgentRAG正在淘汰老范式


5月14号,智谱一天涨出一个科大讯飞,市值冲破5000亿。

同一天,阿里的企业级智能体平台“悟空”开始规模化放量,直接帮企业把半天的BI看板压缩到一句话。

圈里都在讨论估值泡沫。但我盯着这两条新闻,脑子里只有一件事:传统RAG,快扛不住了。


实测:我把项目从传统RAG迁到了AgentRAG

上周刚把一个客服知识库项目从Naive RAG迁到AgentRAG。

不说虚的,单拿“用户退换货流程+订单状态异常+优惠券返还”这种三层嵌套问题来测——

传统RAG:

  • 第一次检索命中率不到40%
  • LLM硬答,hallucination率飙到25%

AgentRAG:

  • 跑ReAct循环,“思考→检索→观察→再检索”
  • 三轮下来命中率拉到89%

差别在哪?

传统RAG是“一锤子买卖”。用户问什么,Embedding搜什么,搜到什么就给LLM什么。它不会反思自己搜得好不好,也不会换个角度再来一次。遇到“它怎么用”这种指代模糊的问题,直接翻车。

AgentRAG不一样。它先拆意图:这是流程查询还是故障排查?然后生成执行计划,决定第一轮用语义检索还是关键词匹配。检索完评估相似度分数,低了就自动换个query再搜。

整个过程像人类查资料——先搜一轮,发现不对,换词再搜,综合两轮结果回答。


代价是什么?

有人说这样延迟会翻倍。

实测:单次检索从800ms涨到2.1s。

但客服场景里,用户愿意多等1秒换一个正确答案,而不是3秒听一段废话。


另一个实测给我的启示

上周拿同一个Rust项目测Cursor和Claude Code:  

工具

Token消耗

结果

Cursor

62万

代码里藏着已删除函数的幽灵调用

Claude Code

4.8万

先读Cargo.toml、追踪调用链、确认依赖关系再动工,一次过编译

Token效率的差距,本质是“有没有前置理解”的差距。

传统RAG就是Cursor那套——问一句搜一次,搜不到再问,循环堆消耗。

AgentRAG学的是Claude Code——先理解、再规划、再执行循环。


泼盆冷水

ARC-AGI-3 benchmarks显示:顶级AI系统在新型抽象任务上的得分仍然低于1%,而人类能100%解决。

现在的Agent离真正的“自主推理”还差得远。

但反过来说,那些已经开始用ReAct、用执行计划、用多轮检索的团队,正在把差距从“能不能回答”拉到“回答得有多准”。


一个还没解决的问题

AgentRAG的“循环上限”设多少轮合适?

  • 设少了,复杂问题信息不够
  • 设多了,Token烧得心疼

我现在的粗暴规则:

  • 事实类:2轮封顶
  • 分析类:5轮
  • 超时降级回传统RAG兜底

这肯定不是最优解。但总比躺在“检索一次”的老黄历上强。


讨论区

  1. 你的RAG项目还在用“单次检索+LLM生成”的流水线吗?遇到过多少次“搜不到就硬答”的翻车现场?
  2. AgentRAG的多轮循环里,“评估检索质量”这一步你们怎么做的?相似度阈值设多少?有没有被Embedding模型坑过?
  3. 智谱、阿里们疯狂押注Agentic架构,你觉得传统RAG还有多久会被淘汰?

评论区见。

声明:图片由AI辅助生成

相关文章
|
22天前
|
人工智能 搜索推荐 JavaScript
别再手动刷热搜了——我让Hermes每天自动分析热点和产品的结合点,还帮我出好了选题
Hermes Agent是Nous Research开源的自进化AI智能体(MIT协议),支持私有部署、持久记忆与闭环学习。本文介绍如何用它自动抓取微博、抖音等多平台热点,结合你的产品信息每日生成精准选题与大纲——三步配置,省去手动刷榜筛热的低效劳动。
459 2
|
20天前
|
人工智能 监控 搜索推荐
AI购物搜索的底层秘密:你的商品为何被推荐,又为何被淹没
本文揭秘2026年AI购物搜索底层逻辑:告别关键词竞价,转向“意图拆解—知识库匹配—上下文排序”新范式。详解千问×淘宝、豆包×抖音两大战场,揭示GEO优化核心——聚焦行业高权重信源、结构化商品信息、统一主体深耕,助中小商家破局AI流量红利。(239字)
|
22天前
|
缓存 安全 小程序
Lua-LSM 系列二:从 CopyFail 到 Dirty Frag,看 732 字节的漏洞,用 79 字节关上
最近发生的真实安全漏洞场景,展示 Lua-LSM 如何在 79 字节内完成对内核提权漏洞的热缓解。
|
22天前
|
存储 人工智能 JSON
Litefuse 正式发布:Agent 可观测与效果评估, 比 Langfuse 成本低 88%
Litefuse 是一个 Agent 可观测与评估平台,兼容 Langfuse SDK 和 100 多个 AI 生态,并支持 Hermes、OpenClaw、Claude Code 等通用 Agent。存储成本比 Langfuse 降低 88%、简化部署架构、Trace 文本检索效率提升 10 倍,帮助团队以更低成本构建可靠的观测平台。
571 9
Litefuse 正式发布:Agent 可观测与效果评估, 比 Langfuse 成本低 88%
|
21天前
|
自然语言处理 Linux API
《从零开始写SKILL.md:OpenClaw技能开发的核心步骤》
本文深度解析OpenClaw中SKILL.md文档编写的底层逻辑与实战方法,点明这份文档是决定大模型技能发挥效果的关键核心。文章指出多数开发者忽视SKILL.md的重要性,导致技能触发不准、执行低效。系统拆解元数据各字段编写规范,涵盖名称、描述、版本、依赖、系统适配等核心要点,同时讲解正文概述、执行步骤、示例、边界场景、输出格式及技能联动的撰写准则。还梳理了编写中常见误区,强调语言简洁精炼、信息适度精简、拒绝照搬模板,并提出需结合大模型特性持续测试迭代、长期维护文档。掌握其编写逻辑与技巧,就能吃透OpenClaw技能开发核心,打造高质量可用技能。
222 0
|
3天前
|
SQL 人工智能 关系型数据库
AI Agent 混合检索选型:阿里云 AnalyticDB MySQL 向量+全文一站式方案
阿里云AnalyticDB MySQL版是面向AI Agent/RAG场景的一站式混合检索数据库,原生支持向量检索+全文搜索+结构化查询,单SQL实现三合一。延迟<10ms,成本降60%+,开发提效3倍,显著优于Milvus+Elasticsearch多组件架构。
98 6
|
22天前
|
人工智能 程序员 API
Claude Code 的 Agent View,让我看到 AI 编程真正麻烦的地方
这两天 Claude Code 又更新了一个东西,叫 Agent View。 一开始我以为这就是个小功能,后来仔细看完官方文档,感觉这事儿有点东西。 它解决的不是模型会不会写代码的问题。 它解决的是当你同时让几个 AI 去干活时,人到底怎么盯、怎么插手、怎么拍板。 官方变更记录里,Agent View 被放在 Claude Code v2.1.139 里,还是 Research Pre
|
24天前
|
机器学习/深度学习 IDE 数据可视化
【2026最新】Spyder安装和使用保姆级教程(附安装包+图文步骤)
Spyder(Scientific Python Development Environment)是一款免费开源的Python IDE,专为数据科学、科学计算与机器学习设计。它融合代码编辑、调试、变量浏览与IPython交互式控制台、数据可视化等功能,界面类MATLAB,开箱即用NumPy、Pandas、Matplotlib等库,Anaconda用户可一键启用。(239字)
|
30天前
|
数据采集 自动驾驶 算法
8类道路交通车辆目标检测数据集(2600张)|YOLO训练数据集 智慧交通 自动驾驶 车流统计 车辆识别
本数据集含2600张真实道路图像,精细标注8类车辆(公交、重型/中型/牵引卡车、皮卡、轿车、两轮车、面包车),YOLO格式,覆盖城市/城郊多场景,支持智慧交通、自动驾驶、车流统计等任务,开箱即用。
380 10
|
11天前
|
人工智能 自然语言处理 API
阿里云百炼大模型服务平台主要模型介绍:文本生成、图像与视频、音频与语音等热门模型与能力简介
阿里云百炼是阿里云推出的一站式大模型开发与应用平台,集成千问(Qwen)全系列及DeepSeek、Kimi、GLM、MiniMax等主流第三方大模型,覆盖文本、图像、音频、视频、向量等多模态能力。开发者可通过OpenAI兼容API直接调用模型,业务人员则可借助可视化工具快速搭建智能体、知识库问答等AI应用,无需自行部署运维。新用户注册开通即可获赠超7000万tokens免费额度,支持从模型体验到应用落地的流程服务,显著降低AI应用开发门槛。