《人工智能:计算Agent基础》——2.2 Agent系统

简介:

本节书摘来自华章计算机《人工智能:计算Agent基础》一书中的第2章,第2.2节,作者:(加)David L.Poole,Alan K.Mackworth 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 Agent系统


6e439091a20b196f003530339e815f6b1bf82f9e

图2-1展示了Agent与环境的一般交互过程,该图所示整体即是我们所说的Agent系统。44
一个Agent系统是由Agent和其所在环境构成。Agent接收环境中的刺激,然后做出相应动作。
一个Agent由主体(body)和控制器(controller)两部分组成。控制器从主体处接收感知,然后将命令送至主体处。
主体包括传感器和执行器,传感器将外部刺激转化为感知,执行器能将命令转换成动作。
刺激包括光、声音、键盘上输入的单词、鼠标移动或者物理冲击,也包括从网页或者数据库中获取的信息。
常见的传感器包括触摸传感器、相机、红外传感器、声呐、麦克风、键盘、鼠标或者通过网页来抽取信息的XML阅读器。作为原型传感器,相机感知进入它的光束,将其转换成亮度数值的二维数组,称为像素。有时会使用多维像素数组来表示不同的颜色或者满足多镜头相机的需求。这些像素数组可被控制器感知。而更多的时候,感知对象通常有着更高层的特征,如线、边或深层次的信息。通常来说,接收的都是特定信息,如明亮的橙色圆点的位置,学生关注的演出部分或者人们打出的手势信息。
动作一般包括转向、加速、移动关节、讲话、展示信息或者向某一网址发送邮件的命令。命令又包括低级命令(如将发动机的电压设定为某个数值)和高级命令(如令一个机器人进行某些运动,例如“停止”,“以1m/s的速度向正东方向运动”或者“到103房间去”)。执行器同传感器类似,都包含噪声。例如,停止是需要时间的;机器人在物理规则下运动,所以具备动量,且信息传递需要时间。机器人也许最终只是以接近1m/s的速度运动,45接近正东方向,且速度和方向都是不断波动的,甚至运动到某一指定房间的行为可能会由于各种原因而失败。
控制器是Agent的大脑,本章的剩余部分将主要讨论如何构建一个控制器。
Agent的功能
Agent应构建为实时性的:应能即时接收传感器信息,并即时做出反应。特定时刻的Agent动作是其输入的函数。我们首先考虑时间的概念。
设T为时间点集合,假定T有序,且任意两个时间点的时序距离均可测定。大体上,我们设定T可以映射到实线上的一些子集。
若任意两个时间点间仅存在有限个时间点,则称T是离散的,如每一天或1/100秒有一个时间点,或者有趣事件发生的时刻也可以是时间点。但如果T中任意两个时间点间都存在另一个时间点,则认为T是稠密的,这表明T中的任意两个时间点间存在无限多个时间点。离散时间存在如下特征:除了最后时间点,其他任何时间点均存在下一时间点。而稠密时间则无“下一时间点”。我们将时间初始化为离散的,且没有尽头。因此每个时间点都存在下一时间点。我们令t+1为时间点t的下一时间点,但这并不代表时间点之间是等间隔的。
假定T有初始时间点,我们这里称其为0。
假定P为所有可能感知对象的集合。一个感知轨迹或者一个感知流则为一个从T到P的函数,它描述了每一时间点所观察到的事物。
假定C是所有命令的集合。 图2-2 例2-1的感知轨迹 图2-3 例2-1的命令轨迹47一个命令轨迹为从T到C的函数,其代表在每个时间点的命令。
【例2-1】 我们来考虑一个家居交易Agent,它监控着多种家居用品价格(如它监视着某些特定交易,并记录卫生纸的涨价情况)及家中相应存量。它必须决定是否购进某物及在何种价格时购进。感知对象为当前商品价格及家中存量。命令为Agent决定购买的各类商品的数量(若不购进则数目为0)。感知轨迹描述了每个时间点(如每天)的商品价格和库存数量,如图2-2所示。命令轨迹描述每个时间点Agent购进的商品数量,如图2-3所示。
实际购入动作依赖于命令,但有可能有所不同。如Agent发出一条以某一特定价格购入12卷(1打)卫生纸的命令,但并不意味着Agent实际购入了12卷卫生纸,因为可能由于网络通信问题,仓库中的卫生纸已卖完,或者在决定买和实际买之间时价格已经46发生变动。
一个Agent的感知轨迹是控制器在过去、现在和将来接收到的所有感知信息的序列。命令轨迹则是控制器在过去、现在和将来发出的所有命令信息的序列。命令可以是历史感知的函数。这就产生了转换的概念,从感知轨迹映射到命令轨迹的函数。
因为所有的Agent都处于时间流中,所以Agent不能真正地观察到全部感知序列;在任意时刻,它只能观察到截至现在的感知轨迹。在t(t∈T)时刻只能观察到t时刻及其之前的信息流。其命令只能根据其经验来决定。
转换过程是有因果联系的,如果对于所有时刻t,在t时间的命令都仅由t和其之前的感知信息决定。因果限制是必需的,因为Agent处于时间流中,所以t时刻的命令不可能依靠t之后的感知信息。
控制器完成因果转换的具体实现。
Agent在时间t的历史包括其在t时刻和之前的感知流和在t时刻和之前的命令流。
因此,一个因果转换可看做是从Agent在t时刻的历史到其在t时刻发出的命令的函数。这可被认为是Agent的最规范描述。
【例2-2】 继续例2-1的情况,一个因果转换可认为,对于任意时刻,Agent需要购买多少日用品取决于历史价格、历史库存量(包括时下价格和现有库存)及过往购买历史。
因果转换的示例如下:当库存量低于5打且价格低于过去20天的平均价格的90%时则购买4打;若库存量低于1打时购进1打;其他情况下不购进。
尽管因果转换是用户历史的函数,但其不能直接实现,因为Agent不能直接获得它们的全部历史信息,它只能获得当前的感知信息和它仍能记住的信息。
一个Agent在时间t时的信念状态是其所能记住的所有以前时间的信息的总和。Agent只能获取其存在信念状态中的历史。因此信念状态蕴含了其现在和将来命令所能用到的所有历史信息。在任何时间,Agent都能访问其信念状态和感知信息。
信念状态可以包含任何信息,仅受制于其存储器大小和处理能力限制。这是信念的一个非常普通的定义;有时我们会使用信念的一个更特别的定义,如Agent的信念是关于世界上哪些为真,或是关于环境的动态改变,或是关于其在未来会做什么。
一些信念状态的实例如下所示:
  • 有固定顺序指令队列的Agent的信念状态可能是一个程序计数器,记录着该序列的当前位置。48
  • 信念状态可能包含有用的特定事实,例如,传送机器人在何处放下包裹去找钥匙,或者它找钥匙时已经去过的地方,记住任何当前无法立即观察却相对稳定的信息对Agent是有用的。
  • 信念状态可以编码成一个模型或者整个世界状态的部分模型。Agent可以保留其对于当前世界状态的最佳猜测,也可以是可能世界状态的一个概率分布,详情内容见5.6节和第6章。
  • 信念状态可以是世界的动态表示、感知的意义,Agent可以使用其感知来判断世界中什么是正确的。
  • 信念状态可以编码为Agent的愿望、它需实现的目标、它关于世界的信念、它的意图或者为了实现目标而准备实施的步骤。当Agent行动和观察世界时,这些能被维持,例如,移除已经达成的目标或当发现更适合的步骤时改变意图。

控制器必须保存Agent的信念状态并决定每个时刻发出何种命令。当它做这些时,它应该获得的信息需包括自身信念状态和当前感知。
离散时间下的信念状态转换函数可表示为
remember:S×P→S
其中,S是信念状态集,P是可能认知的集合;st+1=remember(st,pt)表示状态st+1是在信念状态st之后观察到pt得出的信念状态。
指令函数可表示为
do:S×P→C
其中,S是信念状态集,P是可能认知的集合,C是可能指令的集合;ct=do(st,pt)表示当前的信念状态为st,观察到pt时控制器需要发出的指令ct。
信念状态转换函数和指令函数一起描述了Agent的因果转换过程。可以发现,因果转换是Agent历史的函数,Agent不必访问历史,但指令函数是Agent信念状态和认知的函数,这两个是Agent必须要访问的。
【例2-3】 为了实现例2-2中的因果转换,控制器必须跟踪过去20天内的价格。通过使用均值(ave)的跟踪数值,可以更新均值
ave∶=ave+(new-old)/20
其中,new是最新时刻的价格,old指记住的最早时刻的价格,它在使用后立即会被丢弃。其中最初20天的数据将会做一些特殊处理。49
为了使控制器更加简单,其不需记忆过去20天的历史来获取平均值,而改为仅存储平均值,并使用平均值来替代最早价格。信念状态便仅包含一个数据(ave)。更新平均值的状态转换函数为
ave∶=ave+(new-ave)/20
这个控制器很容易实现,对于在过去20个时间单位之前发生的变化不敏感。这种保留平均估计值的方法是强化学习中的时间差分法的基础。
如果仅存在有限的可能信念状态,控制器可被称为有限状态控制器或者有限状态机。因素化表达是指信念状态、感知和命令均由特征来定义。如果存在有限特征,且每个特征仅存在有限种可能的取值,那控制器就是一个因素化有限状态机。更全面的控制器可以采用无限数量的特征或特征取值来构建。一个有可数状态的控制器可以计算任何图灵机可计算的问题。

相关文章
|
11天前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
143 55
|
21天前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
112 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
117 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
14天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
105 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
23天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
74 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
1月前
|
存储 人工智能 自然语言处理
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
136 13
AI经营|多Agent择优生成商品标题
|
1月前
|
算法 机器人 语音技术
由通义千问驱动的人形机器人具身智能Multi-Agent系统
申昊科技人形机器人小昊,集成通义千问多模态大模型的具身智能系统,旨在讲解销售、迎宾表演等场景。机器人通过语音、动作等方式与用户互动,利用云端大语言模型处理自然语言,结合视觉、听觉等多模态感知技术,实现流畅的人机对话、目标追踪、展厅讲解等功能。
210 3
由通义千问驱动的人形机器人具身智能Multi-Agent系统
|
22天前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
37 7
|
1月前
|
人工智能 自然语言处理 搜索推荐
🤖【多Agent大爆炸】——灵活调用与实践指南,解锁AI协作新技能!
本文深入探讨了单Agent与多Agent在不同场景下的应用及优势,通过实例讲解多Agent如何实现高效协作,涵盖智能物流、教育、医疗等多个领域的实际应用,旨在帮助开发者掌握多Agent系统的调用与实践技巧。
103 5
|
1月前
|
机器学习/深度学习 传感器 人工智能
2024.11|全球具身智能的端到端AI和具身Agent技术发展到哪里了
2024年,具身智能领域取得显著进展,特别是在端到端AI控制系统和多模态感知技术方面。这些技术不仅推动了学术研究的深入,也为科技公司在实际应用中带来了突破。文章详细介绍了端到端AI的演化、自监督学习的应用、多模态感知技术的突破、基于强化学习的策略优化、模拟环境与现实环境的迁移学习、长程任务规划与任务分解、人机协作与社会交互能力,以及伦理与安全问题。未来几年,具身智能将在多模态感知、自监督学习、任务规划和人机协作等方面继续取得重要突破。
70 2