别再迷信“检索一次就够了”,阿里悟空和AgentRAG正在淘汰老范式
5月14号,智谱一天涨出一个科大讯飞,市值冲破5000亿。
同一天,阿里的企业级智能体平台“悟空”开始规模化放量,直接帮企业把半天的BI看板压缩到一句话。
圈里都在讨论估值泡沫。但我盯着这两条新闻,脑子里只有一件事:传统RAG,快扛不住了。
实测:我把项目从传统RAG迁到了AgentRAG
上周刚把一个客服知识库项目从Naive RAG迁到AgentRAG。
不说虚的,单拿“用户退换货流程+订单状态异常+优惠券返还”这种三层嵌套问题来测——
传统RAG:
- 第一次检索命中率不到40%
- LLM硬答,hallucination率飙到25%
AgentRAG:
- 跑ReAct循环,“思考→检索→观察→再检索”
- 三轮下来命中率拉到89%
差别在哪?
传统RAG是“一锤子买卖”。用户问什么,Embedding搜什么,搜到什么就给LLM什么。它不会反思自己搜得好不好,也不会换个角度再来一次。遇到“它怎么用”这种指代模糊的问题,直接翻车。
AgentRAG不一样。它先拆意图:这是流程查询还是故障排查?然后生成执行计划,决定第一轮用语义检索还是关键词匹配。检索完评估相似度分数,低了就自动换个query再搜。
整个过程像人类查资料——先搜一轮,发现不对,换词再搜,综合两轮结果回答。
代价是什么?
有人说这样延迟会翻倍。
实测:单次检索从800ms涨到2.1s。
但客服场景里,用户愿意多等1秒换一个正确答案,而不是3秒听一段废话。
另一个实测给我的启示
上周拿同一个Rust项目测Cursor和Claude Code:
工具 |
Token消耗 |
结果 |
Cursor |
62万 |
代码里藏着已删除函数的幽灵调用 |
Claude Code |
4.8万 |
先读Cargo.toml、追踪调用链、确认依赖关系再动工,一次过编译 |
Token效率的差距,本质是“有没有前置理解”的差距。
传统RAG就是Cursor那套——问一句搜一次,搜不到再问,循环堆消耗。
AgentRAG学的是Claude Code——先理解、再规划、再执行循环。
泼盆冷水
ARC-AGI-3 benchmarks显示:顶级AI系统在新型抽象任务上的得分仍然低于1%,而人类能100%解决。
现在的Agent离真正的“自主推理”还差得远。
但反过来说,那些已经开始用ReAct、用执行计划、用多轮检索的团队,正在把差距从“能不能回答”拉到“回答得有多准”。
一个还没解决的问题
AgentRAG的“循环上限”设多少轮合适?
- 设少了,复杂问题信息不够
- 设多了,Token烧得心疼
我现在的粗暴规则:
- 事实类:2轮封顶
- 分析类:5轮
- 超时降级回传统RAG兜底
这肯定不是最优解。但总比躺在“检索一次”的老黄历上强。
讨论区
- 你的RAG项目还在用“单次检索+LLM生成”的流水线吗?遇到过多少次“搜不到就硬答”的翻车现场?
- AgentRAG的多轮循环里,“评估检索质量”这一步你们怎么做的?相似度阈值设多少?有没有被Embedding模型坑过?
- 智谱、阿里们疯狂押注Agentic架构,你觉得传统RAG还有多久会被淘汰?
评论区见。
声明:图片由AI辅助生成