智谱市值5000亿背后，我的传统RAG项目正被AgentRAG“逼宫”-阿里云开发者社区

智谱市值5000亿背后，我的传统RAG项目正被AgentRAG“逼宫”

2026-05-15 26

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文剖析AgentRAG如何革新传统RAG范式：通过ReAct循环实现“思考→检索→评估→再检索”，将复杂问题命中率从40%提升至89%，显著降低幻觉率。对比实测揭示其本质是“前置理解+动态规划”，虽延迟略增，但准确率跃升。文末探讨循环轮次设定等现实挑战。（239字）

别再迷信“检索一次就够了”，阿里悟空和AgentRAG正在淘汰老范式

5月14号，智谱一天涨出一个科大讯飞，市值冲破5000亿。

同一天，阿里的企业级智能体平台“悟空”开始规模化放量，直接帮企业把半天的BI看板压缩到一句话。

圈里都在讨论估值泡沫。但我盯着这两条新闻，脑子里只有一件事：传统RAG，快扛不住了。

实测：我把项目从传统RAG迁到了AgentRAG

上周刚把一个客服知识库项目从Naive RAG迁到AgentRAG。

不说虚的，单拿“用户退换货流程+订单状态异常+优惠券返还”这种三层嵌套问题来测——

传统RAG：

第一次检索命中率不到40%
LLM硬答，hallucination率飙到25%

AgentRAG：

跑ReAct循环，“思考→检索→观察→再检索”
三轮下来命中率拉到89%

差别在哪？

传统RAG是“一锤子买卖”。用户问什么，Embedding搜什么，搜到什么就给LLM什么。它不会反思自己搜得好不好，也不会换个角度再来一次。遇到“它怎么用”这种指代模糊的问题，直接翻车。

AgentRAG不一样。它先拆意图：这是流程查询还是故障排查？然后生成执行计划，决定第一轮用语义检索还是关键词匹配。检索完评估相似度分数，低了就自动换个query再搜。

整个过程像人类查资料——先搜一轮，发现不对，换词再搜，综合两轮结果回答。

代价是什么？

有人说这样延迟会翻倍。

实测：单次检索从800ms涨到2.1s。

但客服场景里，用户愿意多等1秒换一个正确答案，而不是3秒听一段废话。

另一个实测给我的启示

上周拿同一个Rust项目测Cursor和Claude Code：

工具	Token消耗	结果
Cursor	62万	代码里藏着已删除函数的幽灵调用
Claude Code	4.8万	先读Cargo.toml、追踪调用链、确认依赖关系再动工，一次过编译

Token效率的差距，本质是“有没有前置理解”的差距。

传统RAG就是Cursor那套——问一句搜一次，搜不到再问，循环堆消耗。

AgentRAG学的是Claude Code——先理解、再规划、再执行循环。

泼盆冷水

ARC-AGI-3 benchmarks显示：顶级AI系统在新型抽象任务上的得分仍然低于1%，而人类能100%解决。

现在的Agent离真正的“自主推理”还差得远。

但反过来说，那些已经开始用ReAct、用执行计划、用多轮检索的团队，正在把差距从“能不能回答”拉到“回答得有多准”。

一个还没解决的问题

AgentRAG的“循环上限”设多少轮合适？

设少了，复杂问题信息不够
设多了，Token烧得心疼

我现在的粗暴规则：

事实类：2轮封顶
分析类：5轮
超时降级回传统RAG兜底

这肯定不是最优解。但总比躺在“检索一次”的老黄历上强。

讨论区

你的RAG项目还在用“单次检索+LLM生成”的流水线吗？遇到过多少次“搜不到就硬答”的翻车现场？
AgentRAG的多轮循环里，“评估检索质量”这一步你们怎么做的？相似度阈值设多少？有没有被Embedding模型坑过？
智谱、阿里们疯狂押注Agentic架构，你觉得传统RAG还有多久会被淘汰？

评论区见。

声明：图片由AI辅助生成

智谱市值5000亿背后，我的传统RAG项目正被AgentRAG“逼宫”

实测：我把项目从传统RAG迁到了AgentRAG

差别在哪？

代价是什么？

另一个实测给我的启示

泼盆冷水

一个还没解决的问题

讨论区

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

智谱市值5000亿背后，我的传统RAG项目正被AgentRAG“逼宫”

实测：我把项目从传统RAG迁到了AgentRAG

差别在哪？

代价是什么？

另一个实测给我的启示

泼盆冷水

一个还没解决的问题

讨论区

热门文章

最新文章

相关电子书