AI从System 1迈向System 2重要一步,中科院自动化所探索物体动静态物理属性,入选AAAI和ICLR

简介: AI从System 1迈向System 2重要一步,中科院自动化所探索物体动静态物理属性,入选AAAI和ICLR
研究者开发的框架可以根据视频输入发现物体的动态和静态物理属性,进而推理时序物理事件以及预测未来视频帧。



人类感知和理解周围环境通常要借助于物理常识:直觉物理 (Intuitive Physics),这种常识的建立从婴儿时期就已开始,依托于对物体物理属性 (object-centric representation) 的探索和理解,比如物体的大小、形状、质量、材料、运动速度等。

对于深度神经网络而言,模型缺乏像人类一样以自监督的方式去将场景里的物体拆分表示以更好地理解场景的能力:无法将红色、绿色、黄色等属性正确地分配给所属物体,缺少属性与物体之间的对应关系,而这种理解场景的方式对于抽象常识的建立以及因果关系的发现十分重要。



通过对输入的观测分离表示场景中各个物体的静态属性,进一步借助物理事件推断物体的动态物理属性 可以赋予模型类人的物理常识,从而更好地理解场景以处理更为上层的任务:因果推理、决策、规划等。

中科院自动化所 2035 创新团队基于不同的视角提出两种因果关系与物理属性发现框架,在视频预测、反事实预测、视频推理多个基准数据集取得优异的性能。相关工作先后被 AAAI2022 及 ICLR2022 接收。

用于反事实预测的物理动力学解混杂(AAAI 2022)


研究背景

发现潜在的因果关系是推理周围环境和预测物理世界未来状态的基础能力。基于视觉输入的反事实预测根据过去未出现的情况推断未来状态,是因果关系任务中的重要组成部分。现有研究方法缺乏对因果链的深入挖掘,致使不能够有效建模物体之间的关联并估测动力学系统中的物理属性。

方法概述

对此,团队研究了物理动力学中的混杂影响因子,包括质量、摩擦系数等,建立干预变量和未来状态可能改变变量之间的关联关系,提出了一种包含全局因果关系注意力(GCRA)和混杂因子传输结构(CTS)的神经网络框架。

图 1:整体网络架构。

GCRA 寻找不同变量之间的潜在因果关系,通过捕获空域和时序信息来估计混杂因子,确保模型能够有效建模长距离跨帧物体之间的关联。CTS 以残差的方式整合和传输学习到的混杂因子,利用空序信息加强层,时序信息聚合层以及时空信息传输层来高效编码和利用混杂因子信息和物体状态信息,进而加强反事实预测的能力。

实验证明,在混杂因子真实值未知的情况下,本文的方法能够充分学习并利用混杂因子形成的约束,在相关数据集的预测任务上取得了目前最优的性能,并可以较好地泛化到新的环境,实现良好的预测精度

图 2:在不同数据集上的反事实预测效果。

基于物体动态特征蒸馏的场景分解与表示(ICLR 2022)


论文地址:https://openreview.net/forum?id=1iWoD04yVZU

研究背景

从生成模型的角度来说,已有的一些方法可以通过 VAE 框架对简单场景中的每个物体进行解耦表示,包括物体的形状、大小、位置等静态物理属性,这种对场景中不同物体的分离并解耦的表示方式对于下游任务有着很大的促进作用,增强模型对场景的理解和推理能力。

但是,此类方法大多关注图像输入,即便是对于视频输入也要分解为对单帧图像的分别处理,由于缺乏物理事件的引入,物体的动力学属性(运动方向、速度等)无法被网络学习并编码。

方法概述

团队提出物体动态特征蒸馏网络 (Object Dynamic Distillation Network,ODDN)。

图 3:ODDN 网络框架。

对于视频输入:

  • 基于 VAE 架构的编码器分解每帧图像的场景为多个物体,并将物体的静态物理属性解耦表示,以解码器重建为原图作为监督;
  • 通过 Transformer 的架构自适应匹配不同帧的物体静态物理表示,并根据这个不同帧物体表示的差 异性通过一个前向网络蒸馏出物体的动态特征;
  • 结合编码器编码的物体静态物理属性以及蒸馏网络蒸馏得到的物体动态物理属性,显式的建模物体对之间的交互作用以更新每个物体的动态表示。每个物体更新后的动态表示和静态表示预测下一帧的物体状态并解码为下一帧图像。


实验结果

以动态属性作为额外的物体表示在 CLEVER 数据集 (基于物理事件推理、问答) 取得了 SOTA 的效果,表明物体的动态属性对于视频理解和推理很有帮助,这个结果也符合物理常识。

此外,ODDN 显式建模了物体间的交互,结合生成模型,赋予了模型直接预测未来视频帧的能力。团队在 CLEVRER 以及 Real Tower 数据集上做了视频预测的实验,结果表明在多物体场景 ODDN 的预测精度优于现阶段其他方法,尤其是包含物理事件 (碰撞、相互作用力) 的场景。


图 4:基于输入的两帧预测后续视频帧效果对比。

相比于 Baseline 模型,ODDN 最核心的改进是引入了的物体运动相关的线索,这不仅使得模型在其场景表征以及视频预测能力获益,还改善了其图像重建以及自监督分割的性能,主要表现在物体与物体之间分的更开,细节刻画更为精细。

图 5:分割与重建性能对比。

可视化表明,ODDN 自适应学习推理得出的物体动态物理属性编码了物体在不同方向的运动速度,验证了模型发现物理属性的解耦性。

图 6:动态物理属性解耦可视化:基于给定两帧预测第三帧,调节物体属性值会改变其对应方向的速度值。

未来展望

人类对物理世界的常识、语言、交互和认知通常以物体为基本单位,所以一种自监督的以物体为中心的表示非常有意义。目前相关的工作都关注在简单的 toy 场景,团队希望未来会有在复杂真实场景有效分割表示场景的方法出现。另外,团队希望把以物体为中心的表示做到解耦合,并在此基础上进一步探索场景中物体与事件的因果关系,相信这是现阶段人工智能从 System 1 迈向 System 2 的重要一步。

欢迎同学们加入自动化所智能感知与计算中心张兆翔老师课题组(https://zhaoxiangzhang.net),稳定输出各大AI/CV顶会顶刊。

相关文章
|
1月前
|
人工智能 自然语言处理 自动驾驶
阿里云入选Gartner® AI代码助手魔力象限挑战者象限
Gartner发布业界首个AI代码助手魔力象限,全球共12家企业入围,阿里云,成为唯一进入挑战者象限的中国科技公司。对阿里云而言,此次入选代表了其通义灵码在产品功能和市场应用等方面的优秀表现。
|
2月前
|
人工智能 自动驾驶 机器人
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。
1428 69
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
|
10天前
|
存储 人工智能 安全
从梦想到现实:十年见证AI自动化漏洞修复的演变
2014年,我怀揣着利用科技创造更安全数字世界的梦想,提出了通过云平台自动化修复第三方网站漏洞的构想。十年后的2024年,随着AI技术的崛起,这一梦想已成为现实。如今,用户只需简单注册并安装插件,AI系统就能自动检测、修复漏洞,整个过程高效、智能。AI不仅提升了系统的可靠性和效率,还具备自我学习能力,使安全防护更加主动。未来,我将继续用AI探索更多可能,推动技术的发展,不断完善这个充满智慧与安全的数字世界。
34 3
从梦想到现实:十年见证AI自动化漏洞修复的演变
|
7天前
2025电气自动化与电机系统国际学术会议(EAMS 2025) 2025 International Conference on Electrical Automation and Motor System
2025电气自动化与电机系统国际学术会议(EAMS 2025) 2025 International Conference on Electrical Automation and Motor System
27 7
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试的新篇章:利用AI提升软件质量
【10月更文挑战第35天】在软件开发的海洋中,自动化测试犹如一艘救生艇,它帮助团队确保产品质量,同时减少人为错误。本文将探索如何通过集成人工智能(AI)技术,使自动化测试更加智能化,从而提升软件测试的效率和准确性。我们将从AI在测试用例生成、测试执行和结果分析中的应用出发,深入讨论AI如何重塑软件测试领域,并配以实际代码示例来说明这些概念。
34 3
|
8天前
|
人工智能 自然语言处理 IDE
通义灵码让AI帮你实现自动化编程
通义灵码是由阿里云与通义实验室联合开发的智能编码辅助工具,具备行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答及异常报错排查等功能。该工具支持200多种编程语言,兼容主流IDE,如Visual Studio Code、Visual Studio和JetBrains IDEs。通义灵码在Gartner发布的AI代码助手魔力象限中表现出色,成为唯一进入挑战者象限的中国科技公司。目前,通义灵码下载量已超过470万,每日辅助生成代码超3000万次,被开发者广泛采用。
|
26天前
|
人工智能 安全 决策智能
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论
|
20天前
|
机器学习/深度学习 数据采集 人工智能
探索AI驱动的自动化测试新纪元###
本文旨在探讨人工智能如何革新软件测试领域,通过AI技术提升测试效率、精准度和覆盖范围。在智能算法的支持下,自动化测试不再局限于简单的脚本回放,而是能够模拟复杂场景、预测潜在缺陷,并实现自我学习与优化。我们正步入一个测试更加主动、灵活且高效的新时代,本文将深入剖析这一变革的核心驱动力及其对未来软件开发的影响。 ###
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试的未来:AI与持续集成的完美结合
【10月更文挑战第39天】本文将探索自动化测试领域的最新趋势,特别是人工智能(AI)如何与持续集成(CI)流程相结合,以实现更快、更智能的测试实践。我们将通过实际代码示例和案例分析,展示这种结合如何提高软件质量和开发效率,同时减少人为错误。
14 0
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
探索软件测试的未来:AI与自动化的融合
【10月更文挑战第25天】在本文中,我们将深入探讨软件测试领域正在经历的革命性变化。随着人工智能(AI)和自动化技术的不断进步,传统的测试方法正逐步被更高效、更智能的解决方案所取代。文章将展示如何通过AI增强自动化测试框架,实现更高效的缺陷检测和问题解决。我们将从基础出发,逐步揭示AI在测试用例生成、测试执行和结果分析中的应用,以及这些技术如何帮助团队提高生产力并缩短产品上市时间。

热门文章

最新文章