《自然》:机器视觉行为理解与脑神经有内在关联?上交卢策吾团队构建映射模型

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 《自然》:机器视觉行为理解与脑神经有内在关联?上交卢策吾团队构建映射模型

来自上海交通大学的卢策吾教授团队多年来致力于行为理解研究,最新成果已发表在《自然》上。

当行为主体在执行某个行为时,其大脑是否产生了对应的稳定脑神经模式映射?如果存在稳定映射,是否能运用机器学习方法发现未知行为神经回路?


为了回答这一系列行为理解的本质问题,近日一项发表在《自然》上的工作对行为理解机理进行了研究。该论文的两位共同通讯作者为上海交通大学的卢策吾教授与Salk研究院Kay M. Tye教授。


论文链接:https://www.nature.com/articles/s41586-022-04507-5该成果基于计算机视觉技术定量阐释了机器视觉行为理解与脑神经的内在关联,并首次建立了其稳定映射模型。形成计算机视觉行为分析发现行为神经回路这一运用人工智能解决神经科学基础问题的新研究范式,具体为计算机智能算法通过大规模对小鼠社交和竞争行为视频的理解,发现了控制 “动物社会层级(Social Hierarchy)行为”的神经回路,面向回答哺乳动物是如何判断其他个体与自己在社会群体地位高低并做出行为决策的问题,其形成的新研究范式也进一步推动了人工智能与基础科学问题前沿交叉(AI for Science)领域的发展。

具体研究内容如下:



图1. 视觉行为检测-脑神经信号关联模型:(a)小鼠视觉行为理解(b)系统框架与模型学习。

视觉行为检测-脑神经信号关联模型:我们以小鼠群为实验对象,为每只小鼠佩戴无线电生理记录设备,以记录社交活动中的特定脑区内侧前额叶皮层 (mPFC)的序列脑神经信号。同时,通过多个摄像头跟踪定位每只小鼠,基于卢策吾教授团队研究开发的姿态估计(如alphapose)与行为分类研究成果提取行为语义标签,达到小鼠的姿态估计准确率高于人眼水平。基于提出系统自动采集的大量数据,隐马尔可夫模型训练从“小鼠mPFC脑区的神经活动信号”到“行为标签”的回归模型,发现训练后在测试集上仍然有稳定映射关系,揭示了行为视觉类型与其行为主体大脑中的脑神经信号模式存在稳定的映射关系。模型应用:控制动物社会层级(Social Hierarchy)行为神经回路发现:基于视觉行为检测-脑神经信号关联模型,我们可以发现新的行为神经回路。“动物社会层级”行为神经控制机理(比如,低等级小鼠会让高等级小鼠优先进食,低等级小鼠会表现出服从行为)一直是学界重要问题,即哺乳动物是如何判断其他个体与自己的社会群体地位高低的?其背后的神经控制机制是怎么样的?由于动物社会层级行为是复杂行为概念,该问题一直为学界未所突破的难题。我们在大规模的小鼠群体竞争视频中,定位 “动物社会层级”行为基于上述系统和模型,并同时记录到动物社会层级行为的脑部活动状态,深度解析了动物社会层级行为在大脑中的形成机制,即发现内侧前额叶皮层-外侧下丘脑(mPFC-LH)回路具有控制动物社会层级行为的功能,并得到严格生物学实验的证实。该研究形成了基于机器视觉学习发现未知行为功能神经回路的新研究范式,也进一步推动了人工智能解决基础科学问题(AI for Science)的发展。卢策吾团队行为理解研究
上述工作是卢策吾团队多年的行为理解方面积累的一部分。机器如何理解行为,需要全面地回答以下三个问题:

1. 机器认知角度:如何让机器看懂行为?2. 神经认知角度:机器认知语义与神经认知的内在关联是什么?3. 具身认知角度:如何将行为理解知识迁移到的机器人系统?

图2. 卢策吾团队围绕行为理解主要工作


此次在《自然》上发表的工作正是想回答第二个问题,对于其他两个问题团队主要工作有:

1、如何让机器看懂行为?


主要工作包括:

  • 人类行为知识引擎HAKE(Human Activity Knowledge Engine)


为探索可泛化、可解释、可扩展的行为识别方法,要克服行为模式和语义间的模糊联系、数据分布长尾等问题。区别于一般的直接深度学习“黑盒”模式,团队构建了知识引导与数据驱动的行为推理引擎HAKE(开源网站:http://hake-mvig.cn/home/):

图3. HAKE系统框架

HAKE将行为理解任务分为两阶段,首先将视觉模式映射到人体局部状态原语空间,用有限且接近完备的原子的原语表达多样的行为模式;随后将原语依据逻辑规则进行编程,以可推理行为语义。HAKE提供了大型的行为原语知识库以支持高效的原语分解,并借助组合泛化和可微神经符号推理完成行为理解,具有以下特点(发表TPAMI,CVPR等计算机视觉顶刊顶会十余篇):

(1)规则可学习:HAKE可根据少量人类行为-原语的先验知识进行逻辑规则的自动挖掘和验证,即对原语组合规则进行总结,并在实际数据上进行演绎验证,以发现有效且可泛化的规则,发现未知行为规则,如图4。

图4. 学习未见行为规则

(2)人类性能upper bound:在87类复杂行为实例级别行为检测测试集(10,000张图像)上,具备完备原语检测的HAKE系统的性能甚至可接近人类的行为感知性能,验证了其巨大潜力。

(3)行为理解“图灵测试”:

图5. 让机器(HAKE)和人类抹去部分像素使得无法理解图中行为,图灵测试表明,HAEK的“抹去手法”和人类十分相似。


我们还提出了一种特殊“图灵测试”:若机器可以从图像中抹去关键像素,使得人类被试者也无法分辨该行为时,即认为其可以较好地理解该行为。分别让HAKE和人类去做这种抹去操作。并请另一批志愿者做图灵测试,问这个抹去操作是人类还是HAKE操作。人类分辨的正确率约为59.55%(随机猜50%),说明HAKE的“抹去手法”和人类十分相似,侧面印证了在行为“可解释性”的理解上与人类相近。

  • 行为对象可泛化的脑启发计算模型(《自然•机器智能》)


对于某个特定行为(如“洗”),人类大脑能抽象出泛化的行为动态概念,适用于不同的视觉对象(如衣服、茶具、鞋),并以此做出行为识别。神经科学领域研究发现,对于连续视觉信号输入,在人类的记忆形成过程中,时空动态信息与物体对象信息是通过两个相对独立的信息通路到达海马体以形成完整的记忆,这个带来行为对象可泛化的可能性。

图6. 解耦合地处理行为对象概念和行为动态概念,带来的泛化性。

基于脑科学启发,卢策吾团队通过模仿人类的认知行为对象与动态概念在各种脑区独立工作的机制,提出了适用于高维度信息的半耦合结构模型(SCS),实现自主发掘(awareness)行为视觉对象概念与行为动态概念,将两种概念分别记忆存储在相对独立的两部分神经元上。在深度耦合模型框架下设计信息独立误差反传(decouple back-propagation)机制,约束两类神经元只关注自己的概念,初步实现了行为理解对行为主体对象的泛化。所提出半耦合结构模型工作发表在《自然•机器智能》,并获得2020年世界人工智能大会优秀青年论文奖。

                                       视频序列                                 对象神经元       动态神经元图7.可视化表征“视觉对象”与“行为动态概念”的神经元《自然•机器智能》

  • 人体姿态估计


人体姿态估计是行为理解的重要基础,该问题是一个在结构约束下获取精准感知的问题,围绕结构约束下感知问题,提出图竞争匹配、姿态流全局优化、神经-解析混合的逆运动优化等算法,系统性地解决人体运动结构感中密集人群干扰大、姿态跟踪不稳定、三维人体常识性错误严重等难题,前后发表CVPR,ICCV等计算机视觉顶会论文20多篇;

图8. 结构感知的工作。

相关研究成果积累形成开源系统AlphaPose(https://github.com/MVIG-SJTU/AlphaPose),在开源社区GitHub上获得5954 Star(Fork数为1656),GitHub排名前十万份之1.6。被传感器领域、机器人领域、医学领域、城市建设领域广泛使用。在姿态估计后,团队进一步形成开源视频行为理解开源框架Alphaction(https://github.com/MVIG-SJTU/AlphAction)。

2、如何将行为理解知识迁移到的机器人系统?

探索结合第一人称角度理解人类行为本质,从单纯考虑“她/他在做什么”到联合考虑“我在做什么”。这种研究范式也正是 “具身智能”(Embodied AI)的研究思路。探索将该理解能力与学习得到的行为知识迁移到具身智能本体(人形机器人),使机器人初步具有“人类行为能力”,最后驱动机器人完成真实世界的部分任务,为通用服务机器人奠定基础。以上科学问题的解决将:(1)大大提高行为语义检测性能和提升语义理解范围;(2)有力地提高智能体(特别是人形机器人)对真实世界的理解能力,同时根据完成任务过程中真实世界的反馈检验机器对行为概念本质的理解程度,为通用智能机器人的实现打下重要基础。

近年来卢策吾团队在具身智能领域联合非夕科技构建通用物体抓取框架GraspNet(https://graspnet.net/anygrasp.html),实现了任意场景下刚体、可变形物体、透明物体等各种类型的未见物体的抓取,首次将PPH(picks per hour)指标超越人类水平,为之前性能最优的DexNet算法的三倍,相关论文发表一年内被引用70次。物体抓取是机器人操作的第一步,为该项目打下良好基础。

相关文章
|
1天前
|
机器学习/深度学习 测试技术
LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
近日,字节跳动豆包大模型团队发布论文,探讨视频生成模型(如类Sora模型)在理解物理规律方面的能力,引起广泛关注并获Yann LeCun点赞。研究通过2D模拟平台测试扩散模型,发现其在分布内表现优异,但在分布外和组合泛化上存在不足,揭示了基于案例的泛化和特征优先级机制。这表明,仅靠视觉数据难以学习到真正的物理规律,未来需引入物理先验知识以提升模型性能。
26 16
|
3月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
84 2
|
7月前
|
存储 数据挖掘
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
|
算法
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
137 0
|
机器学习/深度学习 Web App开发 自动驾驶
顺序决策与基础模型如何交叉互惠?谷歌、伯克利等探讨更多可能
顺序决策与基础模型如何交叉互惠?谷歌、伯克利等探讨更多可能
121 0
|
机器学习/深度学习 人工智能 自然语言处理
扩散模型背后数学太难了,啃不动?谷歌用统一视角讲明白了
扩散模型背后数学太难了,啃不动?谷歌用统一视角讲明白了
254 0
刘慈欣对话卡梅隆:《三体》的深度和广度,需要至少六部电影才能完美呈现
科幻电影适合原创剧本,而不适合改编。但当前国内科幻编剧太少了。
601 0
|
机器学习/深度学习 人工智能 自然语言处理
重温五条 AI 基础规律
像机器学习如何人工“智能”
340 0

热门文章

最新文章