《自然》:机器视觉行为理解与脑神经有内在关联?上交卢策吾团队构建映射模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 《自然》:机器视觉行为理解与脑神经有内在关联?上交卢策吾团队构建映射模型

来自上海交通大学的卢策吾教授团队多年来致力于行为理解研究,最新成果已发表在《自然》上。

当行为主体在执行某个行为时,其大脑是否产生了对应的稳定脑神经模式映射?如果存在稳定映射,是否能运用机器学习方法发现未知行为神经回路?


为了回答这一系列行为理解的本质问题,近日一项发表在《自然》上的工作对行为理解机理进行了研究。该论文的两位共同通讯作者为上海交通大学的卢策吾教授与Salk研究院Kay M. Tye教授。


论文链接:https://www.nature.com/articles/s41586-022-04507-5该成果基于计算机视觉技术定量阐释了机器视觉行为理解与脑神经的内在关联,并首次建立了其稳定映射模型。形成计算机视觉行为分析发现行为神经回路这一运用人工智能解决神经科学基础问题的新研究范式,具体为计算机智能算法通过大规模对小鼠社交和竞争行为视频的理解,发现了控制 “动物社会层级(Social Hierarchy)行为”的神经回路,面向回答哺乳动物是如何判断其他个体与自己在社会群体地位高低并做出行为决策的问题,其形成的新研究范式也进一步推动了人工智能与基础科学问题前沿交叉(AI for Science)领域的发展。

具体研究内容如下:



图1. 视觉行为检测-脑神经信号关联模型:(a)小鼠视觉行为理解(b)系统框架与模型学习。

视觉行为检测-脑神经信号关联模型:我们以小鼠群为实验对象,为每只小鼠佩戴无线电生理记录设备,以记录社交活动中的特定脑区内侧前额叶皮层 (mPFC)的序列脑神经信号。同时,通过多个摄像头跟踪定位每只小鼠,基于卢策吾教授团队研究开发的姿态估计(如alphapose)与行为分类研究成果提取行为语义标签,达到小鼠的姿态估计准确率高于人眼水平。基于提出系统自动采集的大量数据,隐马尔可夫模型训练从“小鼠mPFC脑区的神经活动信号”到“行为标签”的回归模型,发现训练后在测试集上仍然有稳定映射关系,揭示了行为视觉类型与其行为主体大脑中的脑神经信号模式存在稳定的映射关系。模型应用:控制动物社会层级(Social Hierarchy)行为神经回路发现:基于视觉行为检测-脑神经信号关联模型,我们可以发现新的行为神经回路。“动物社会层级”行为神经控制机理(比如,低等级小鼠会让高等级小鼠优先进食,低等级小鼠会表现出服从行为)一直是学界重要问题,即哺乳动物是如何判断其他个体与自己的社会群体地位高低的?其背后的神经控制机制是怎么样的?由于动物社会层级行为是复杂行为概念,该问题一直为学界未所突破的难题。我们在大规模的小鼠群体竞争视频中,定位 “动物社会层级”行为基于上述系统和模型,并同时记录到动物社会层级行为的脑部活动状态,深度解析了动物社会层级行为在大脑中的形成机制,即发现内侧前额叶皮层-外侧下丘脑(mPFC-LH)回路具有控制动物社会层级行为的功能,并得到严格生物学实验的证实。该研究形成了基于机器视觉学习发现未知行为功能神经回路的新研究范式,也进一步推动了人工智能解决基础科学问题(AI for Science)的发展。卢策吾团队行为理解研究
上述工作是卢策吾团队多年的行为理解方面积累的一部分。机器如何理解行为,需要全面地回答以下三个问题:

1. 机器认知角度:如何让机器看懂行为?2. 神经认知角度:机器认知语义与神经认知的内在关联是什么?3. 具身认知角度:如何将行为理解知识迁移到的机器人系统?

图2. 卢策吾团队围绕行为理解主要工作


此次在《自然》上发表的工作正是想回答第二个问题,对于其他两个问题团队主要工作有:

1、如何让机器看懂行为?


主要工作包括:

  • 人类行为知识引擎HAKE(Human Activity Knowledge Engine)


为探索可泛化、可解释、可扩展的行为识别方法,要克服行为模式和语义间的模糊联系、数据分布长尾等问题。区别于一般的直接深度学习“黑盒”模式,团队构建了知识引导与数据驱动的行为推理引擎HAKE(开源网站:http://hake-mvig.cn/home/):

图3. HAKE系统框架

HAKE将行为理解任务分为两阶段,首先将视觉模式映射到人体局部状态原语空间,用有限且接近完备的原子的原语表达多样的行为模式;随后将原语依据逻辑规则进行编程,以可推理行为语义。HAKE提供了大型的行为原语知识库以支持高效的原语分解,并借助组合泛化和可微神经符号推理完成行为理解,具有以下特点(发表TPAMI,CVPR等计算机视觉顶刊顶会十余篇):

(1)规则可学习:HAKE可根据少量人类行为-原语的先验知识进行逻辑规则的自动挖掘和验证,即对原语组合规则进行总结,并在实际数据上进行演绎验证,以发现有效且可泛化的规则,发现未知行为规则,如图4。

图4. 学习未见行为规则

(2)人类性能upper bound:在87类复杂行为实例级别行为检测测试集(10,000张图像)上,具备完备原语检测的HAKE系统的性能甚至可接近人类的行为感知性能,验证了其巨大潜力。

(3)行为理解“图灵测试”:

图5. 让机器(HAKE)和人类抹去部分像素使得无法理解图中行为,图灵测试表明,HAEK的“抹去手法”和人类十分相似。


我们还提出了一种特殊“图灵测试”:若机器可以从图像中抹去关键像素,使得人类被试者也无法分辨该行为时,即认为其可以较好地理解该行为。分别让HAKE和人类去做这种抹去操作。并请另一批志愿者做图灵测试,问这个抹去操作是人类还是HAKE操作。人类分辨的正确率约为59.55%(随机猜50%),说明HAKE的“抹去手法”和人类十分相似,侧面印证了在行为“可解释性”的理解上与人类相近。

  • 行为对象可泛化的脑启发计算模型(《自然•机器智能》)


对于某个特定行为(如“洗”),人类大脑能抽象出泛化的行为动态概念,适用于不同的视觉对象(如衣服、茶具、鞋),并以此做出行为识别。神经科学领域研究发现,对于连续视觉信号输入,在人类的记忆形成过程中,时空动态信息与物体对象信息是通过两个相对独立的信息通路到达海马体以形成完整的记忆,这个带来行为对象可泛化的可能性。

图6. 解耦合地处理行为对象概念和行为动态概念,带来的泛化性。

基于脑科学启发,卢策吾团队通过模仿人类的认知行为对象与动态概念在各种脑区独立工作的机制,提出了适用于高维度信息的半耦合结构模型(SCS),实现自主发掘(awareness)行为视觉对象概念与行为动态概念,将两种概念分别记忆存储在相对独立的两部分神经元上。在深度耦合模型框架下设计信息独立误差反传(decouple back-propagation)机制,约束两类神经元只关注自己的概念,初步实现了行为理解对行为主体对象的泛化。所提出半耦合结构模型工作发表在《自然•机器智能》,并获得2020年世界人工智能大会优秀青年论文奖。

                                       视频序列                                 对象神经元       动态神经元图7.可视化表征“视觉对象”与“行为动态概念”的神经元《自然•机器智能》

  • 人体姿态估计


人体姿态估计是行为理解的重要基础,该问题是一个在结构约束下获取精准感知的问题,围绕结构约束下感知问题,提出图竞争匹配、姿态流全局优化、神经-解析混合的逆运动优化等算法,系统性地解决人体运动结构感中密集人群干扰大、姿态跟踪不稳定、三维人体常识性错误严重等难题,前后发表CVPR,ICCV等计算机视觉顶会论文20多篇;

图8. 结构感知的工作。

相关研究成果积累形成开源系统AlphaPose(https://github.com/MVIG-SJTU/AlphaPose),在开源社区GitHub上获得5954 Star(Fork数为1656),GitHub排名前十万份之1.6。被传感器领域、机器人领域、医学领域、城市建设领域广泛使用。在姿态估计后,团队进一步形成开源视频行为理解开源框架Alphaction(https://github.com/MVIG-SJTU/AlphAction)。

2、如何将行为理解知识迁移到的机器人系统?

探索结合第一人称角度理解人类行为本质,从单纯考虑“她/他在做什么”到联合考虑“我在做什么”。这种研究范式也正是 “具身智能”(Embodied AI)的研究思路。探索将该理解能力与学习得到的行为知识迁移到具身智能本体(人形机器人),使机器人初步具有“人类行为能力”,最后驱动机器人完成真实世界的部分任务,为通用服务机器人奠定基础。以上科学问题的解决将:(1)大大提高行为语义检测性能和提升语义理解范围;(2)有力地提高智能体(特别是人形机器人)对真实世界的理解能力,同时根据完成任务过程中真实世界的反馈检验机器对行为概念本质的理解程度,为通用智能机器人的实现打下重要基础。

近年来卢策吾团队在具身智能领域联合非夕科技构建通用物体抓取框架GraspNet(https://graspnet.net/anygrasp.html),实现了任意场景下刚体、可变形物体、透明物体等各种类型的未见物体的抓取,首次将PPH(picks per hour)指标超越人类水平,为之前性能最优的DexNet算法的三倍,相关论文发表一年内被引用70次。物体抓取是机器人操作的第一步,为该项目打下良好基础。

相关文章
|
2月前
|
JSON 自然语言处理 安全
看爬b站《工作细胞》一万条评论看伙伴们在讨论什么_工作细胞评论
看爬b站《工作细胞》一万条评论看伙伴们在讨论什么_工作细胞评论
|
2月前
|
机器学习/深度学习 数据可视化 算法
PACNet & CellNet(代码开源)|bulk数据作细胞分类,评估细胞命运性能的一大利器
PACNet和CellNet都是强大的工具,分别用于研究细胞命运工程和细胞类型保真度,它们在细胞类型分类和网络分析方面有所不同,可以根据研究需求选择合适的工具。
40 1
|
11月前
|
算法 网络性能优化 调度
转:鱼群算法在文档管理系统中可以起到怎样的作用
鱼群算法是一种基于自然界中鱼群行为的计算机算法,可以用于优化问题的解决。在文档管理系统中,鱼群算法可以用来管理和优化网络资源的分配和使用。
55 0
|
12月前
|
算法
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
103 0
|
机器学习/深度学习 自然语言处理 数据库
可阅读「通用生命语言」的深度学习模型,照亮了微生物组数据中的暗物质
可阅读「通用生命语言」的深度学习模型,照亮了微生物组数据中的暗物质
|
机器学习/深度学习 人工智能 程序员
点线面的工作学习方式
  本文主要介绍我个人的一种工作学习方式:点线面的工作学习方式。希望对大家以后的工作和职业发展有所启发和帮助。   7月份的时候,我去京东外面的世界转了转,聊了聊。切身体会到:别人其实并不关心你之前做的具体工作,关心的是你从中得到了什么。当然,如果你是一直深耕一个业务领域的专家,除外,例如一直从事金融风控领域的技术开发。   面试中,我之前在啥啥公司做了啥啥项目,这个项目业务怎么怎么的复杂,功能怎么怎么的牛批,一顿业务功能的输出。   so ?然后呢 ?
136 0
|
数据可视化 数据挖掘 大数据
以系统化视角反观产品运营,解读提升用户转化的“四部曲”
正常的活动运营通常会围绕公司经营目标,针对不同性质、不同类型的活动开展工作。这样的活动一般会分四个阶段:活动准备、活动策划、活动执行与活动复盘阶段。
以系统化视角反观产品运营,解读提升用户转化的“四部曲”
|
人工智能 自然语言处理 BI
阿里的问答模型新思路:利用外部知识增加QA答案自然程度
自然语言处理曾被认为是人工智能皇冠上的璀璨明珠,现如今再随着图像识别等技术的长足进步,这颗明珠似乎也显得有些暗淡无光了。但是,一篇来自阿里巴巴研究团队提交到EMNLP 2019的关于自然语言生成文章,似乎为自然语言处理领域重现昔日荣光找到方向
|
算法 JavaScript 自然语言处理
带你读《自然语言处理的认知方法》之二:人类关联规范能否评估机器制造的关联列表
自然语言处理跨越了许多不同的学科,有时很难理解它们各自带来的贡献和挑战。本书探讨了自然语言处理与认知科学之间的关系,每章都由相关领域的专家撰写,内容涵盖语言理解、语言生成、词联想、词义消除歧义、词可预测性、文本生成和作者身份识别。本书适合对自然语言处理及其跨学科特性感兴趣的学生和研究人员。