AI Agent系列|什么是 ReAct Agent?

简介: 本系列文章基于 Lynxe 作者沈询的实战经验,深入浅出解析 ReAct Agent 的核心原理与工程价值,帮助开发者快速掌握从“写流程”到“造智能体”的关键跃迁。

关于这个系列

作为 Lynxe(原JManus)的作者,我花费了很多课余时间来完善这个Func-Agent框架,也因此对于什么是ReAct Based Agent 有了更深一些的理解。

所以想把这些内容总结出来,是因为这个项目本身核心目的就是探索Agent的前沿最佳实践,目前已经有所小成,Lynxe能解决我自己面对的80%以上的问题了,所以我觉得值得把我实验下来有效的东西写出来,方便大家快速入门。

你可以访问 Lynxe(菱科斯)阅读详细源码来学习agent的一些最佳实践。这是一个非常完善的产品级的 Func-Agent框架。

https://github.com/spring-ai-alibaba/Lynxe

系列计划

  • 什么是 ReAct Agent? (本篇)
  • 深入了解智能体工作流核心:Agent vs 传统编程 vs Workflow 的本质区别
  • 深入解析Function Calling、MCP和Skills的本质差异与最佳实践
  • 上下文管理的一些实践
  • 并行执行的最佳实践与我走过的弯路

核心思想:观察-思考-行动

ReAct 这个名字听起来挺高大上,其实拆开看就明白了:Reasoning(推理)+ Acting(行动)。说白了,就是让 AI 一边想一边做,而不是想完了再做。

ReAct Agent 的工作方式其实挺像人类解决问题的过程。它不是一次性把整个流程都规划好,而是在有一个整体目标的前提下,走一步看一步。具体来说,它会先观察当前的情况,然后思考下一步该做什么,接着执行这个动作,再观察结果,根据结果决定下一步。这个过程会一直循环,直到任务完成。

打个比方,传统的方式就像你出门前把整个路线都查好,然后严格按照路线走。而 ReAct 更像是你出门后,走一段路,看看周围环境,再决定下一步往哪走。比如你要去一个没去过的咖啡店,传统方式是你提前查好所有路线,ReAct 则是你走到路口,看看路牌,再决定左转还是右转,边走边找。


实际例子

再举个更具体的例子。假设你要让 AI 帮你查"北京今天天气怎么样,适合穿什么衣服"。用 ReAct 的方式,AI 会这样工作:

1.观察:看到用户的问题,历史上下文为空

2.思考:"我需要知道北京今天的天气"(思考是可选输出,就跟人的思考是内化发生的一样)

3.行动:调用天气查询工具,查询 "北京今天天气"

4.观察:获取到天气数据:温度 25°C,晴天,湿度 60%,风速 3m/s

5.思考:"现在我知道天气了,需要查询穿衣建议知识库来获取具体的穿衣建议"(思考是可选输出)

6.行动:调用穿衣建议知识库查询工具,查询 "25度晴天适合穿什么衣服"

7.观察:获取到穿衣建议:25度晴天建议穿短袖 T 恤或薄长袖,可以带一件薄外套以防早晚温差,建议戴帽子和涂防晒霜

8.思考:"我已经获取了天气和穿衣建议,应该将这些信息写入文件保存"(思考是可选输出)

9.行动:调用 writeToFile 工具,将完整建议写入文件

10.观察:建议已写入到文件 weather_suggestion.md

整个过程是观察-思考-行动-再观察的循环,而不是一开始就把所有步骤都定死。每一步都会根据当前的历史上下文和环境信息,动态决定下一步该做什么。


为什么需要 ReAct?

你可能会问,为什么要这么麻烦?直接写个固定流程不就行了吗?问题在于,很多现实任务其实没那么简单。你可能会遇到各种意外情况,比如 API 返回错误、数据格式不对、或者需要根据中间结果调整策略。ReAct 的优势就在于它能根据实际情况灵活应对,而不是遇到意外就卡住。

当然,这种灵活性也带来了一些代价,比如行为可能不那么可预测,有时候 AI 可能会"犯傻"。但总的来说,在处理复杂、不确定的任务时,ReAct 这种边想边做的方式还是很有优势的。


ReAct 是怎么实现的?

关键要素

ReAct 的实现其实离不开几个关键要素:

1. 历史上下文(History)ReAct 会维护一个对话历史,记录之前所有的思考、行动和观察。这样 LLM 在做决策时,可以参考之前发生了什么,避免重复操作或者走错路。

2. 观察当前环境信息(Current Environment Information)这是 Agent 在当前时刻接收到的外部信息,比如用户的输入、系统的状态、或者其他需要处理的数据。这些信息会作为 LLM 推理的输入,帮助决定下一步该做什么。

3. 语言模型(LLM Thinking)这是 ReAct 的"大脑",负责推理和决策。每次需要思考下一步该做什么时,LLM 会根据当前的历史上下文、环境信息和观察结果,生成下一步的行动计划。(后续表格里这个think是隐藏的,最终表现形式就是toolcall)

4. 工具/动作(toolcall)这是 ReAct 的"手脚",用来执行具体的操作。比如搜索、查询 API、读写文件等等。每个工具都有明确的输入输出,Agent 可以调用这些工具来完成实际工作。

5. 观察结果(toolcall结果)每次执行动作后,都会得到一个观察结果。这个结果会被反馈给 LLM,作为下一轮推理的依据。观察结果可能包括成功的数据、错误信息、或者需要进一步处理的内容。

执行流程示例

下面用一个完整的例子,看看 ReAct 是怎么一步步解决问题的。假设任务是:"帮我查一下北京今天天气怎么样,适合穿什么衣服。"

轮次

历史上下文

当前环境信息

当前轮次提示词

行动(toolcall)

观察结果(toolcall结果)

Round 1

已知:

当前历史上下文:&{历史上下文}

当前环境信息:&{当前环境信息}

用户目标:"帮我查一下北京今天天气怎么样,适合穿什么衣服。"

做出下一步的决策 .

你必须最少使用一个工具来实现该决策

天气查询工具调用:查询 "北京今天天气"

天气查询工具返回:获取到天气数据:温度 25°C,晴天,湿度 60%,风速 3m/s

Round 2

已获取北京天气数据(25°C,晴天,湿度 60%,风速 3m/s)

天气工具:无额外环境信息

同上,提示词不会变化

穿衣建议知识库查询工具调用:查询 "25度晴天适合穿什么衣服"

穿衣建议知识库查询工具返回:25度晴天建议穿短袖 T 恤或薄长袖,可以带一件薄外套以防早晚温差,建议戴帽子和涂防晒霜

Round 3

天气数据(25°C,晴天,湿度 60%,风速 3m/s);已获取穿衣建议:25度晴天建议穿短袖 T 恤或薄长袖,可以带一件薄外套以防早晚温差,建议戴帽子和涂防晒霜

天气工具:无额外环境信息、穿衣知识库工具:无额外环境信息

同上,提示词不会变化

writeToFile工具调用:内容为"北京今天天气:25°C,晴天,湿度 60%。建议穿短袖 T 恤或薄长袖,可以带一件薄外套以防早晚温差,建议戴帽子和涂防晒霜"

writeToFile工具返回:建议已写入到文件 weather_suggestion.md

从这里我们也可能看到,核心其实就是

已知:

当前历史上下文:&{历史上下文}

当前环境信息:&{当前环境信息}

用户目标:"帮我查一下北京今天天气怎么样,适合穿什么衣服。"

做出下一步的决策:

你必须最少使用一个工具来实现该决策。

最终输出:建议已经写入到文件 weather_suggestion.md,你可以通过打开这个文件来看到具体建议。

从这个例子可以看出,ReAct 不是一开始就知道所有步骤,而是根据每轮的观察结果,动态决定下一步该做什么。如果 Round 1 搜索失败了,它可能会尝试其他搜索关键词,或者换一个策略。这种灵活性正是 ReAct 的核心优势。


伪代码

下面是一个 round 的执行流程伪代码,展示了核心的执行逻辑:

函数 执行一个轮次(用户目标, 历史上下文):
    // 1. 获取当前环境信息
    当前环境信息 = 获取当前环境信息()
    
    // 2. 构建提示词(替换占位符)
    提示词模板 = "已知:\n当前历史上下文:${历史上下文}\n当前环境信息:${当前环境信息}\n用户目标:\"${用户目标}\"\n\n做出下一步的决策\n\n你必须最少使用一个工具来实现该决策"
    完整提示词 = 替换占位符(提示词模板, {
        历史上下文: 历史上下文,
        当前环境信息: 当前环境信息,
        用户目标: 用户目标
    })
    
    // 3. 调用 LLM 进行推理(思考过程隐藏,直接输出 toolcall)
    工具调用结果 = 调用语言模型(完整提示词, 历史上下文)
    
    // 4. 解析工具调用
    工具名称 = 解析工具名称(工具调用结果)
    工具参数 = 解析工具参数(工具调用结果)
    
    // 5. 执行工具调用
    观察结果 = 执行工具(工具名称, 工具参数)
    
    // 6. 更新历史上下文
    新历史上下文 = 追加到历史上下文(历史上下文, {
        行动: 工具调用结果,
        观察结果: 观察结果
    })
    
    // 7. 返回结果
    返回 {
        观察结果: 观察结果,
        新历史上下文: 新历史上下文
    }
结束函数

// 主循环
函数 执行ReAct流程(用户目标):
    历史上下文 = 空
    当前轮次 = 1
    最大轮次 = 10
    
    当 当前轮次 <= 最大轮次 且 未完成任务:
        结果 = 执行一个轮次(用户目标, 历史上下文)
        历史上下文 = 结果.新历史上下文
        
        如果 判断任务已完成(结果.观察结果):
            中断循环
        
        当前轮次 = 当前轮次 + 1
    结束循环
    
    返回 历史上下文
结束函数

欢迎关注系列下一篇文章:《AI Agent系列|深入了解智能体工作流核心:Agent vs 传统编程 vs Workflow 的本质区别》



来源  |  阿里云开发者公众号

作者  |  沈询

相关文章
|
20天前
|
人工智能 自然语言处理 前端开发
AI Agent系列|深入了解智能体工作流核心:Agent vs 传统编程 vs Workflow 的本质区别
本系列文章基于 Lynxe 作者沈询的实战经验,深入浅出解析 ReAct Agent 的核心原理与工程价值,帮助开发者快速掌握从“写流程”到“造智能体”的关键跃迁。
|
20天前
|
人工智能 自然语言处理 前端开发
AI Agent系列|深入解析Function Calling、MCP和Skills的本质差异与最佳实践
本系列文章基于 Lynxe 作者沈询的实战经验,深入浅出解析 ReAct Agent 的核心原理与工程价值,帮助开发者快速掌握从“写流程”到“造智能体”的关键跃迁。
|
20天前
|
人工智能 Java 决策智能
用Spring AI Alibaba把MultiAgent实现从5天压到5小时
本文详解Spring AI Alibaba新版本的Multi-agent能力,涵盖React/Planning核心模式、手写框架与成熟框架差异,并通过Plan-Execute实战示例,展示如何基于Graph工作流快速构建可扩展、易维护的智能体系统,助力Java开发者高效落地AI应用。
用Spring AI Alibaba把MultiAgent实现从5天压到5小时
|
20天前
|
存储 人工智能 Java
准确率提升至 90%,阿里商旅基于 AgentScope 构建多智能体差旅助手最佳实践
阿里商旅AliGo通过代码化多智能体架构升级,选用AgentScope框架+Python/Java混合栈+FastAPI,构建“快慢车道”意图识别、实时思考链与流式输出、分层上下文工程及动态Prompt状态机,事项收集准确率从50%提升至90%+,获InfoQ与量子位2025年度AI大奖。
准确率提升至 90%,阿里商旅基于 AgentScope 构建多智能体差旅助手最佳实践
|
7天前
|
人工智能 自然语言处理 IDE
养虾只需丢给 Qoder 1个 Skill:安装、配置、上手OpenClaw 一次性搞定
本文介绍如何用Qoder快速对接OpenClaw:三步完成——安装Qoder IDE、配置OpenClaw与钉钉/飞书机器人、通过ACP协议接入Qoder CLI。无需手动部署,丢个Skill文件,泡杯茶的功夫,AI虾塘就跑起来了!
841 39
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
以小胜大!千问Qwen3.5重磅发布,每百万Token仅0.8元
阿里巴巴开源全新一代千问Qwen3.5-Plus:全球最强开源大模型,3970亿参数、仅激活170亿,原生多模态,支持图文视频理解与长视频分析;推理吞吐量最高提升19倍,API价格低至0.8元/百万Token。
以小胜大!千问Qwen3.5重磅发布,每百万Token仅0.8元
|
20天前
|
SQL 人工智能 关系型数据库
让慢SQL消失在提交前:Qoder × RDS AI助手Skill的实时拦截术
在AI Coding快节奏开发中,SQL质量常成盲区:测试难复现、人工Review低效、问题滞后暴露。RDS AI助手提供实时SQL智能审查,3分钟集成Qoder,覆盖正确性、性能、索引、可维护性等维度,将“事后救火”变为“事前预防”,让高质量SQL成为开发默认标准。
|
19天前
|
运维 API 调度
中国企业级大模型市场,阿里千问占比32%位列第一!
沙利文报告指出,2025年下半年中国企业级大模型日均调用量达37.0万亿tokens,千问(Qwen)占比32.1%,近乎翻倍,稳居第一。企业应用动因转向提效降本,开源意愿显著增强,千问已开源400+模型,下载超10亿次,成全球第一开源大模型。
|
2月前
|
Web App开发 人工智能 JSON
别再手写提示词!需求澄清 + 50多专业提示词框架自动匹配,效率提升10倍!
Prompt Optimizer 是一款智能提示词优化工具,内置50+专业框架,支持需求澄清、歧义确认与自动匹配,兼容多模型,显著提升AI输出质量并降低API成本。(239字)
别再手写提示词!需求澄清 + 50多专业提示词框架自动匹配,效率提升10倍!
|
20天前
|
存储 机器学习/深度学习 人工智能
当我们谈论 AI 推理的 KV Cache,我们在说什么?
本文以《Attention Is All You Need》为起点,深入浅出地解析了 Transformer 架构的核心思想与技术细节。
当我们谈论 AI 推理的 KV Cache,我们在说什么?

热门文章

最新文章