大模型编程(4)- 大白话 agent

简介: 本文介绍了大模型中的`agent`概念及其作用。通过类比日常使用的浏览器作为访问网页的代理,解释了`agent`在大模型中的角色:简化复杂操作、增强功能性。文中提到,即使是简单的功能实现(如查询天气),也可以视为`agent`的应用。进一步探讨了一个典型的智能家庭助理`agent`的工作流程,包括感知环境、思考决策和执行行动三个主要阶段。这不仅帮助理解`agent`的功能,也为开发更复杂的`agent`提供了参考。

前一节说了怎么在大模型里面通过预留的 function call 机制来让大模型自己判断是否要调用工具方法。这一节我又跟着教程学习知道了 agent ,过渡非常丝滑。我加上我自己的一些理解,可能更加“德芙”吧。这节原文 https://edu.aliyun.com/course/3126500/lesson/342570389

大模型之外的 agent

其实我们天天都在用 agent ,当我们浏览网页的时候,需要使用浏览器,不管是在 chrome 里面还是 weixin 里面在打开网页的时候,都会在 http 请求头里带上User-Agent

# 浏览器
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36
# 微信
Mozilla/5.0 (iPhone; CPU iPhone OS 14_0 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0 Mobile/15E148 Safari/604.1 WeChat/8.0.4

浏览器就是我们访问网站的agent(代理人),如果说现在有个特别高安全环境要求定制一款浏览器,只能做纯文本解析,只支持换行、制表符等,不能执行 js,是不是超级 low ,但是也是一款浏览器。

大模型的 agent

就像一个网站只有一张“重金求子”的海报,算不算钓鱼网站?再简单也是个网站吧,所以大模型的 agent 也不用被网上那些牛逼哄哄的架构图吓着了,agent 就是帮我们更方便使用大模型的,所有我们使用大模型过程中复杂的问题可以通过它来简化的能力,都可以集成到 agent 中来。

所以上节中的问天气也是一个最简单的 agent 实现,就是有太 low。我们的代码太少也不够结构化,别人开源的 agent 等价于我们开发网站的框架,这不,已经有很多开源的 agent 框架了,比如 modelscope-agent

https://mp.weixin.qq.com/s/L3GiV2QHeybhVZSg_g_JRw

一个典型的 Agent

知己知彼,百战不殆。天下文章一大抄,一定得看看别人 agent 开发到什么水平了。

image.png

假设你有一个智能家庭助理,它可以帮助管理家庭中的各种事务:

  1. 感知(Perception):
    • 家庭助理通过摄像头、麦克风、传感器等设备获取家庭成员的活动信息和环境状态。例如,它可以“看到”房间里的光线情况,听到你和它的对话,感知到家里的温度等。
  2. 思考(Deliberation/Reasoning):
    • 家庭助理根据获取的信息来“思考”下一步应该做什么。如果你说“我有点冷”,它会从数据库中查询当前的温度数据,结合你的偏好(已存储或通过对话学习得来的),决定是否应该调整温度。
    • 如果它检测到今天是垃圾回收日且垃圾桶已满,它会提醒你或自动安排机器人将垃圾桶移到指定位置。
  3. 行动(Action):
    • 家庭助理可以执行一些具体的行动来响应你的需求。例如,它可以调整温度,打开或关闭窗帘,启动车库门,甚至下单购买你常用的家庭用品。

让Agent具备记忆能力

记忆我理解就是说话要带着上下文,不能单独成篇对话,粗糙点理解,短期记忆(Short-Term Memory)对应内存存储;长期记忆(Long-Term Memory)对应磁盘存储。不细看了。

让Agent具备规划能力

这个很重要,这样才是大模型 agent 的核心,其能翻译为“智能体”的根本。涉及的点有任务分解、思维链(Chain of Thought,CoT)、思维树ToT(Tree of Thought)、思维图GoT(Graph of Thoughts)、自我反思。这里没有什么笔记,全是课程里面的内容,大家查看原文吧。

目录
相关文章
|
25天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1629 89
|
5月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
4月前
|
人工智能 搜索推荐 测试技术
通义灵码 Agent+MCP:打造自动化菜品推荐平台,从需求到部署实现全流程创新
通过通义灵码编程智能体模式和 MCP 的集成,开发者可以高效构建在线菜品推荐网站。智能体模式大幅提升了开发效率,MCP 服务则为功能扩展提供了无限可能。
|
6月前
|
自然语言处理 安全 数据挖掘
Hologres+函数计算+Qwen3,对接MCP构建企业级数据分析 Agent
本文介绍了通过阿里云Hologres、函数计算FC和通义千问Qwen3构建企业级数据分析Agent的解决方案。大模型在数据分析中潜力巨大,但面临实时数据接入与跨系统整合等挑战。MCP(模型上下文协议)提供标准化接口,实现AI模型与外部资源解耦。方案利用SSE模式连接,具备高实时性、良好解耦性和轻量级特性。Hologres作为高性能实时数仓,支持多源数据毫秒级接入与分析;函数计算FC以Serverless模式部署,弹性扩缩降低成本;Qwen3则具备强大的推理与多语言能力。用户可通过ModelScope的MCP Playground快速体验,结合TPC-H样例数据完成复杂查询任务。
|
7月前
|
人工智能 自然语言处理 前端开发
从理论到实践:使用JAVA实现RAG、Agent、微调等六种常见大模型定制策略
大语言模型(LLM)在过去几年中彻底改变了自然语言处理领域,展现了在理解和生成类人文本方面的卓越能力。然而,通用LLM的开箱即用性能并不总能满足特定的业务需求或领域要求。为了将LLM更好地应用于实际场景,开发出了多种LLM定制策略。本文将深入探讨RAG(Retrieval Augmented Generation)、Agent、微调(Fine-Tuning)等六种常见的大模型定制策略,并使用JAVA进行demo处理,以期为AI资深架构师提供实践指导。
831 73
|
5月前
用Qwen3搭建MCP Agent,有机会瓜分1亿tokens
通义实验室联合阿里云百炼发起有奖征文活动!使用Qwen3+MCP Sever搭建Agent,即有机会瓜分1亿Tokens大奖与限定周边。活动时间:5月6日-5月30日征稿,投稿需包含技术文档、故事分享、演示视频及知识产权承诺书。突出技术创新与场景应用,传播潜力更大!扫码报名并分享至社交平台还有额外抽奖机会,赢定制好礼!
350 11
|
4月前
|
机器学习/深度学习 自然语言处理 算法
万字长文详解|DLRover LLM Agent:大模型驱动的高效集群资源调优
本文介绍了DLRover LLM Agent,展示了基于 LLM 上下文学习能力的优化算法设计理念以及在DLRover 资源调优上的应用方法和效果。
|
10月前
|
人工智能 自然语言处理 算法
基于Qwen的法律领域问答方案(Agent+代码生成)
第三届琶洲算法大赛由广州市政府与中国人工智能学会联合主办,聚焦AI大模型和AIGC热点,吸引超5000支队伍参赛。本文提出基于Qwen的Agent+代码生成方案,通过问题重写、命名实体识别、意图识别等步骤,实现法律问题解答、案件信息查询等功能,支持自定义接口以满足不同查询需求。方案利用大语言模型的语义理解和函数调用功能,确保答案可控生成,并已发布于Qwen-Article仓库。
|
7月前
|
弹性计算 人工智能 架构师
一文揭秘|如何速成RAG+Agent框架大模型应用搭建(二)
一文揭秘|如何速成RAG+Agent框架大模型应用搭建
477 4
|
10月前
|
存储 自然语言处理 机器人
基于的Qwen模型的智能客服Discord机器人,使用🐫 CAMEL、SambaNova、Firecrawl和Qdrant实现RAG Agent
基于Qwen模型的智能客服Discord机器人,使用CAMEL、SambaNova、Firecrawl和Qdrant实现RAG Agent。构建了一个能够处理复杂问题并能进行快速响应的强大聊天机器人。该机器人可在Discord平台上运行,支持实时对话和语义搜索,提供准确、全面的回答。项目包含详细的安装步骤、代码示例及集成指南,适合开发者快速上手。

热门文章

最新文章