【重磅】Nature子刊 | 增强学习强化,混合脑生化鼠“走迷宫”能力大幅提升

简介:

神经科学和计算机科学的发展加强了大脑和机器之间的融合,现在可以用机械的方式对生物的感觉、记忆和运动机能进行增强或修复,科学家也做出了动物机器人和嵌入生物大脑的认知机器人。诸如此类的生物智能与人工智能相结合,使人不禁思考:这样的混合系统是否比单独的生物系统更加智能?


为了解决这个问题,浙江大学吴朝晖课题组的研究人员率先进行了这样的实验,他们使用采用了机器学习规则的计算系统增强小鼠的大脑,然后观察这样的混合系统是否在学习走迷宫的任务中具有更强的学习能力。


论文摘要:混合脑机系统的迷宫学习


摘要


推动生物智能和人工智能融合的背后主要有两股力量:一是由有意识的活体控制机械,通常是假肢;二是以电或光的方式刺激神经系统从而控制动物的行为。但就我们所知,目前还没有研究实际展示过在一个基于计算机的系统里发生的空间学习,能够影响生物成分(即大鼠)的学习和决策行为,这两种类型的智能被整合在一起,形成了一个新的智能实体。在这里,我们展示了计算组件进行的运算促成了一种新型的混合脑机系统——“生化鼠”(ratbot),在视觉和触觉(胡须)感知受阻的情况下,在学习走迷宫的任务中也展现出超强的学习能力。我们预计,我们的研究将激励其他的研究者,去探索将生物大脑的学习和记忆过程和各种规则运算及其他人工智能算法相结合,开发更加强大的生化智能系统。我们的研究发现或将对智能系统和神经康复治疗有着一系列深远的影响。


实验设计:生化鼠在没有人类干预的情况下自动学习




实验前,所有的小鼠都停水两天,经过改造,大脑植入电极并连接计算机,从而成为智能增强的生化鼠。这种生化鼠走迷宫时,计算机系统上的学习算法和规则运算会根据摄像头传来的视频输入计算 MFB 的刺激参数(电压、频率、占空比和脉冲数),从而对小鼠进行指导。实验中,生化鼠在没有人类干预的情况下自动进行学习。


每次走迷宫,生化鼠都必须在全部 6 个决策点进行正确的决策,才能在终点获得奖励(水)。每次决策时,在 6 次中有 5 次都正确,才能视为做出了正确的决策。一般需要连续走好几回才能学会一个迷宫。在一次走迷宫试验中,只要当小鼠机器人连续 3 次成功到达终点,才能被视为学会了走这一个迷宫。


实验中,计算机采用的增强算法是 Q-Learning。




实验一共设计了两种类型的生化鼠——V1 和 V2。V1 鼠的构成:研究人员在小鼠大脑的内侧前脑束(MFB)植入电极,小鼠背上的背包会接收 MFB 的刺激参数,并且往小鼠大脑输入刺激脉冲。从迷宫上方鸟瞰的摄像头会记录下小鼠的运动和方位。


V2 鼠和 V1 鼠的硬件配置一样,不过在头上多加了一台微型摄像头。这台微型摄像头会将视频信息无线传输到计算机,然后由计算机识别路标。


迷宫一共有 100 个单元,每个单元的长宽高都为 15 cm。迷宫的隔板可以移动,因此整个迷宫是可以随机自由组合的。迷宫中一共设置了 6 个决策点,这些决策点的方向可以被随机设置为向左或向右,因此一共有 64 种不同的走迷宫组合。


实验过程:混合脑机系统探索迷宫能力显著增强


研究人员首先考察了生化鼠是否能从记录下的迷宫图中提取出空间地图,并且形成 MFB 奖励规则。实验中,经过 V1 鼠在迷宫中的不断行走,计算机系统的 Q-Learning 算法生成了数字奖励地图。根据小鼠的位置和奖励地图,算法生成了实时的 MFB 刺激参数,用于指导生化鼠在迷宫中行走。当接近终点时,计算机对小鼠 MFB 的刺激会增强。


在对照组实验中,仍然带有电极的小鼠对迷宫进行探索,但是这次没有连接计算机。结果没有计算机系统增强的小鼠,在决策中表现出了大约 50% 的正确率,与随机选择相当。此外,对照组平均需要走 6 次走才能学会迷宫,比起平均在第 3 次就学会的小鼠机器人要慢了很多。


为了验证生化鼠是否学会了将学到的规则用于探索迷宫,研究人员进行了第二次试验。实验中,研究人员使用 V2 鼠,并且在迷宫中放置了 6 个路标,每个路标都指明了正确的行进方向。实验中,当 V2 鼠头上的摄像头拍摄到路标时,计算机就会向背包发送一个持续的 MFB 刺激。


结果,相比没有计算系统增强的对照组,经过增强的 V2 鼠在走迷宫时表现出了强大的学习能力,只要 2 次就能学会走迷宫(对照组需要 5 次)。即使在 V2 鼠被套上面罩以后(视觉和触觉感知受阻,小鼠基本上只能由计算机系统指导),其表现也与之前相差无几。这说明,机器智能能够弥补缺失的那部分感觉系统输入。


为了验证生化鼠能否利用学会的信息在新的迷宫中导航,研究人员进行了第三次试验。计算机利用前两次试验的结果,生成了新的规则算法——也就是说,第三次试验时,计算机的算法已经“走过了”迷宫。这一次,V2 鼠第一次走迷宫的正确率就达到了大约 80%,平均只用 2 次就能够走出迷宫,比此前的对照组水平都有了显著提升。



实验中计算机生成的迷宫图像。一旦 V1 小鼠机器人学会了走迷宫,计算机就会生成一幅地图。算法分析了 3 台 V1 小鼠机器人走迷宫的地图,生成了一个增量奖励规则:从起始单元开始,沿着正确路径目标单位 MFB 刺激的水平逐步递增。此外,其他的奖励地图也被用来验证提取的规则是否正确。第三次试验所使用的算法规则就是结合了第一次和第二次试验结果生成的。


这个工作描述了新颖的生化智能系统的实验模型,并为所述概念提供了可以验证的证据。研究所描述的生化鼠清楚地表明,混合系统在迷宫学习任务中的优良性能。研究人员表示,从大数据中学习、基于知识体系的人工智能系统构成的智能计算部件,可以用于增强生物活体大脑的功能。


这一实验表明了生物有机体和计算组件组成的混合脑机系统的巨大潜力。研究人员预期,这样的混合脑机系统可以用于提高动物机器人的学习和认知能力,也可以用于脑损伤人的康复,甚至用于帮助高强度认知负荷人群,比如士兵和宇航员。


文章转自新智元公众号,原文链接

相关文章
|
机器学习/深度学习 人工智能 算法
目标检测的国内外研究现状
作为计算机领域的一个重要的研究成果,深度卷积神经网络已经广泛用于图像分类问题。随着图像分类的准确度提高,基于卷积神经网络的图像目标检测算法已逐渐成为当前的研究热点。
6497 0
|
8月前
|
安全 Serverless API
MCP Server 之旅第 5 站:服务鉴权体系解密
本文深入探讨了MCP协议在授权机制上的演进与函数计算对MCP场景下Auth的支持。文章从MCP协议的授权发展入手,分析了2024-11-05无授权支持到2025-03-26基于OAuth 2.1的授权机制,再到最新Draft中引入Protected Resource Metadata(RFC9728)的变化。同时,详细介绍了函数计算如何通过Bearer认证方式解决MCP场景下的授权问题,帮助开发者降低开发成本并提升安全性。
|
4月前
|
机器学习/深度学习 自然语言处理 算法
27_依存解析详解:语法结构的精确表示
依存解析(Dependency Parsing, DP)是自然语言处理(NLP)中的核心技术之一,其目标是分析句子中词语之间的依存关系,构建句法树结构以表示句子的语法组织。这种解析方式通过标记词之间的有向弧来表示它们之间的句法关系,如主谓关系、动宾关系等。
|
SQL 数据采集 数据挖掘
Pandas 教程
10月更文挑战第25天
282 2
|
5月前
|
机器学习/深度学习 负载均衡 网络架构
Mixture of Experts架构的简要解析
Mixture of Experts(MoE)架构起源于1991年,其核心思想是通过多个专门化的“专家”网络处理输入的不同部分,并由门控网络动态组合输出。这种架构实现了稀疏激活,仅激活部分专家,从而在模型规模与计算成本之间取得平衡。MoE的关键在于门控机制的设计,如线性门控、噪声Top-K门控等,确保模型能根据输入特征自适应选择专家。
690 8
|
运维 监控 Linux
推荐几个不错的 Linux 服务器管理工具
推荐几个不错的 Linux 服务器管理工具
1095 6
|
网络协议 Windows
电脑ip在哪里查看?windows系统查看ip地址的8种方法
在Windows系统中,有多种方法可以查看电脑的IP地址。
8008 2
|
搜索推荐 API
淘宝商品数据洞察:解锁精准营销新策略
在快速变化的商业环境中,高效的营销策略对企业至关重要。通过API获取淘宝APP的商品细节数据,企业可以精准分析产品特性、强化卖点,并制定灵活的价格策略。利用用户画像实现个性化营销,选择最佳渠道并优化内容,从而提升品牌影响力。这一方法不仅帮助企业抓住目标消费者,还能增强市场竞争力,促进长期发展。
|
Java 数据库连接 数据库
MyBatis TypeHandler详解:原理与自定义实践
MyBatis TypeHandler详解:原理与自定义实践