智谱市值5000亿背后,我的传统RAG项目正被AgentRAG“逼宫”

简介: 本文剖析AgentRAG如何革新传统RAG范式:通过ReAct循环实现“思考→检索→评估→再检索”,将复杂问题命中率从40%提升至89%,显著降低幻觉率。对比实测揭示其本质是“前置理解+动态规划”,虽延迟略增,但准确率跃升。文末探讨循环轮次设定等现实挑战。(239字)


别再迷信“检索一次就够了”,阿里悟空和AgentRAG正在淘汰老范式


5月14号,智谱一天涨出一个科大讯飞,市值冲破5000亿。

同一天,阿里的企业级智能体平台“悟空”开始规模化放量,直接帮企业把半天的BI看板压缩到一句话。

圈里都在讨论估值泡沫。但我盯着这两条新闻,脑子里只有一件事:传统RAG,快扛不住了。


实测:我把项目从传统RAG迁到了AgentRAG

上周刚把一个客服知识库项目从Naive RAG迁到AgentRAG。

不说虚的,单拿“用户退换货流程+订单状态异常+优惠券返还”这种三层嵌套问题来测——

传统RAG:

  • 第一次检索命中率不到40%
  • LLM硬答,hallucination率飙到25%

AgentRAG:

  • 跑ReAct循环,“思考→检索→观察→再检索”
  • 三轮下来命中率拉到89%

差别在哪?

传统RAG是“一锤子买卖”。用户问什么,Embedding搜什么,搜到什么就给LLM什么。它不会反思自己搜得好不好,也不会换个角度再来一次。遇到“它怎么用”这种指代模糊的问题,直接翻车。

AgentRAG不一样。它先拆意图:这是流程查询还是故障排查?然后生成执行计划,决定第一轮用语义检索还是关键词匹配。检索完评估相似度分数,低了就自动换个query再搜。

整个过程像人类查资料——先搜一轮,发现不对,换词再搜,综合两轮结果回答。


代价是什么?

有人说这样延迟会翻倍。

实测:单次检索从800ms涨到2.1s。

但客服场景里,用户愿意多等1秒换一个正确答案,而不是3秒听一段废话。


另一个实测给我的启示

上周拿同一个Rust项目测Cursor和Claude Code:  

工具

Token消耗

结果

Cursor

62万

代码里藏着已删除函数的幽灵调用

Claude Code

4.8万

先读Cargo.toml、追踪调用链、确认依赖关系再动工,一次过编译

Token效率的差距,本质是“有没有前置理解”的差距。

传统RAG就是Cursor那套——问一句搜一次,搜不到再问,循环堆消耗。

AgentRAG学的是Claude Code——先理解、再规划、再执行循环。


泼盆冷水

ARC-AGI-3 benchmarks显示:顶级AI系统在新型抽象任务上的得分仍然低于1%,而人类能100%解决。

现在的Agent离真正的“自主推理”还差得远。

但反过来说,那些已经开始用ReAct、用执行计划、用多轮检索的团队,正在把差距从“能不能回答”拉到“回答得有多准”。


一个还没解决的问题

AgentRAG的“循环上限”设多少轮合适?

  • 设少了,复杂问题信息不够
  • 设多了,Token烧得心疼

我现在的粗暴规则:

  • 事实类:2轮封顶
  • 分析类:5轮
  • 超时降级回传统RAG兜底

这肯定不是最优解。但总比躺在“检索一次”的老黄历上强。


讨论区

  1. 你的RAG项目还在用“单次检索+LLM生成”的流水线吗?遇到过多少次“搜不到就硬答”的翻车现场?
  2. AgentRAG的多轮循环里,“评估检索质量”这一步你们怎么做的?相似度阈值设多少?有没有被Embedding模型坑过?
  3. 智谱、阿里们疯狂押注Agentic架构,你觉得传统RAG还有多久会被淘汰?

评论区见。

声明:图片由AI辅助生成

相关文章
|
16天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23521 12
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
4天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
1266 7
|
5天前
|
人工智能 BI 持续交付
Claude Code 深度适配 DeepSeek V4-Pro 实测:全场景通关与真实体验报告
在 AI 编程工具日趋主流的今天,Claude Code 凭借强大的任务执行、工具调用与工程化能力,成为开发者与自动化运维的核心效率工具。但随着原生模型账号稳定性问题频发,寻找一套兼容、稳定、能力在线的替代方案变得尤为重要。DeepSeek V4-Pro 作为新一代高性能大模型,提供了完整兼容 Claude 协议的 API 接口,只需简单配置即可无缝驱动 Claude Code,且在任务执行、工具调用、复杂流程处理上表现极为稳定。
1388 3
|
10天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
2543 4
|
3天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
956 0
|
20天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
6069 22
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
21天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
7331 18