智谱市值5000亿背后,我的传统RAG项目正被AgentRAG“逼宫”

简介: 本文剖析AgentRAG如何革新传统RAG范式:通过ReAct循环实现“思考→检索→评估→再检索”,将复杂问题命中率从40%提升至89%,显著降低幻觉率。对比实测揭示其本质是“前置理解+动态规划”,虽延迟略增,但准确率跃升。文末探讨循环轮次设定等现实挑战。(239字)


别再迷信“检索一次就够了”,阿里悟空和AgentRAG正在淘汰老范式


5月14号,智谱一天涨出一个科大讯飞,市值冲破5000亿。

同一天,阿里的企业级智能体平台“悟空”开始规模化放量,直接帮企业把半天的BI看板压缩到一句话。

圈里都在讨论估值泡沫。但我盯着这两条新闻,脑子里只有一件事:传统RAG,快扛不住了。


实测:我把项目从传统RAG迁到了AgentRAG

上周刚把一个客服知识库项目从Naive RAG迁到AgentRAG。

不说虚的,单拿“用户退换货流程+订单状态异常+优惠券返还”这种三层嵌套问题来测——

传统RAG:

  • 第一次检索命中率不到40%
  • LLM硬答,hallucination率飙到25%

AgentRAG:

  • 跑ReAct循环,“思考→检索→观察→再检索”
  • 三轮下来命中率拉到89%

差别在哪?

传统RAG是“一锤子买卖”。用户问什么,Embedding搜什么,搜到什么就给LLM什么。它不会反思自己搜得好不好,也不会换个角度再来一次。遇到“它怎么用”这种指代模糊的问题,直接翻车。

AgentRAG不一样。它先拆意图:这是流程查询还是故障排查?然后生成执行计划,决定第一轮用语义检索还是关键词匹配。检索完评估相似度分数,低了就自动换个query再搜。

整个过程像人类查资料——先搜一轮,发现不对,换词再搜,综合两轮结果回答。


代价是什么?

有人说这样延迟会翻倍。

实测:单次检索从800ms涨到2.1s。

但客服场景里,用户愿意多等1秒换一个正确答案,而不是3秒听一段废话。


另一个实测给我的启示

上周拿同一个Rust项目测Cursor和Claude Code:  

工具

Token消耗

结果

Cursor

62万

代码里藏着已删除函数的幽灵调用

Claude Code

4.8万

先读Cargo.toml、追踪调用链、确认依赖关系再动工,一次过编译

Token效率的差距,本质是“有没有前置理解”的差距。

传统RAG就是Cursor那套——问一句搜一次,搜不到再问,循环堆消耗。

AgentRAG学的是Claude Code——先理解、再规划、再执行循环。


泼盆冷水

ARC-AGI-3 benchmarks显示:顶级AI系统在新型抽象任务上的得分仍然低于1%,而人类能100%解决。

现在的Agent离真正的“自主推理”还差得远。

但反过来说,那些已经开始用ReAct、用执行计划、用多轮检索的团队,正在把差距从“能不能回答”拉到“回答得有多准”。


一个还没解决的问题

AgentRAG的“循环上限”设多少轮合适?

  • 设少了,复杂问题信息不够
  • 设多了,Token烧得心疼

我现在的粗暴规则:

  • 事实类:2轮封顶
  • 分析类:5轮
  • 超时降级回传统RAG兜底

这肯定不是最优解。但总比躺在“检索一次”的老黄历上强。


讨论区

  1. 你的RAG项目还在用“单次检索+LLM生成”的流水线吗?遇到过多少次“搜不到就硬答”的翻车现场?
  2. AgentRAG的多轮循环里,“评估检索质量”这一步你们怎么做的?相似度阈值设多少?有没有被Embedding模型坑过?
  3. 智谱、阿里们疯狂押注Agentic架构,你觉得传统RAG还有多久会被淘汰?

评论区见。

声明:图片由AI辅助生成

相关文章
|
9天前
|
数据采集 自动驾驶 算法
8类道路交通车辆目标检测数据集(2600张)|YOLO训练数据集 智慧交通 自动驾驶 车流统计 车辆识别
本数据集含2600张真实道路图像,精细标注8类车辆(公交、重型/中型/牵引卡车、皮卡、轿车、两轮车、面包车),YOLO格式,覆盖城市/城郊多场景,支持智慧交通、自动驾驶、车流统计等任务,开箱即用。
145 10
|
5天前
|
人工智能 自然语言处理 安全
OpenClaw 小龙虾 AI 智能体 Windows 部署完整教程(2026 最新)
OpenClaw(小龙虾)是2026年爆火的开源AI智能体,GitHub星标超28万。支持本地运行、零代码配置、自动任务处理,专为新手设计——一键部署包+全程可视化操作,10分钟即可在Win10/11上搭建专属数字员工,解放重复办公!
|
1月前
|
数据采集 存储 监控
网络爬虫工具选型与实操:从入门到精通,避开常见坑
本文将探讨网络爬虫工具的基本概念及其应用,介绍如何通过高匿代理IP来隐藏数据抓取过程中的身份信息。同时,阐述建立自己的爬虫系统的方法,帮助读者深入了解爬虫技术的实际操作和注意事项,为数据采集和分析提供参考。
282 10
|
1月前
|
监控 安全 数据可视化
Process Explorer中文版免费下载:系统管理员都在用的进程监控工具
Process Explorer是微软官方出品的免费进程管理工具,堪称任务管理器的终极升级版。支持进程树查看、彩色编码标识、文件/注册表/网络监控,绿色便携、无需安装,兼容Win7-Win11,权威可靠,是系统管理员与普通用户的必备利器。(239字)
|
1月前
|
Windows
Notepad++ 8.6 文本编辑器安装教程:详细步骤+自定义路径+桌面快捷方式
Notepad++是一款免费、轻量且功能强大的文本编辑器,支持多种编程语言,具备语法高亮、代码折叠等特性。本指南详解v8.6版的下载、解压、管理员安装、路径自定义及快捷方式设置,助您快速完成安装并启动使用。(239字)
|
1月前
|
人工智能 弹性计算 缓存
2026阿里云轻量应用服务器价格表:38元1年抢2核2G,9.9元1个月、199元1年抢2核4G
阿里云轻量应用服务器以简单易用、高性价比成为个人和普通企业用户的上云首选。2026年轻量应用服务器限时秒杀活动,如38元/年(2核2G)和9.9元/月(2核4G,预装OpenClaw)的抢购配置,覆盖个人开发、企业建站及AI应用部署场景。同时,提供日常配置套餐(2核4G、4核8G等)及长期特价云服务器ECS(99元/年经济型e实例、199元/年通用算力型u1实例),满足稳定需求。用户可根据业务规模和复杂度灵活选择。
|
1天前
|
人工智能 测试技术 Python
别再给Agent写单元测试了——那是给确定性软件准备的武器
本文揭示Agent测试的范式陷阱:传统断言式测试无法捕捉非确定性行为(如死循环、状态漂移)。团队重建评估体系,转向“行为链”评估,构建三层任务成功标准、人工校准的LLM-as-Judge及行为回归集,显著提升模型迭代验证效率。(239字)
27 1
|
1天前
|
人工智能 搜索推荐 JavaScript
别再手动刷热搜了——我让Hermes每天自动分析热点和产品的结合点,还帮我出好了选题
Hermes Agent是Nous Research开源的自进化AI智能体(MIT协议),支持私有部署、持久记忆与闭环学习。本文介绍如何用它自动抓取微博、抖音等多平台热点,结合你的产品信息每日生成精准选题与大纲——三步配置,省去手动刷榜筛热的低效劳动。
50 2
|
1天前
|
人工智能 自然语言处理 算法
2026:AIGS来了,软件正在被AI重新定义一遍
2026年是“Agent落地年”,软件正从“买系统”迈向“编服务”。AIGS(AI生成服务)取代AIGC,聚焦可运行、可调度的生产级服务,而非静态内容。向量空间JBoltAI在Java生态率先实现Function Call、MCP与思维链工程化整合,推动AI从“能说话”到“能办事”的范式变革。
|
1天前
|
人工智能 算法 前端开发
基于YOLO的驾驶员异常行为检测系统~Python+YOLOV8算法+目标检测+图像识别+人工智能
基于YOLO的驾驶员异常行为检测系统~Python+YOLOV8算法+目标检测+图像识别+人工智能
28 6