李飞飞团队最新研究,真实场景中识别物体具体属性,连表面纹理都识别出来了

简介: 云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 现在,细微到物体表面的纹理,AI都可以识别。 这就是李飞飞团队新研究。 我们知道,卷积神经网络在识别视觉对象方面很出色,但还不能很好的识别出物体的具体属性,比如表面形状、纹理等。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!


现在,细微到物体表面的纹理,AI都可以识别。

这就是李飞飞团队新研究。

我们知道,卷积神经网络在识别视觉对象方面很出色,但还不能很好的识别出物体的具体属性,比如表面形状、纹理等。

而最近,李飞飞团队的最新研究——Learning Physical Graph Representations from Visual Scenes,就一举解决了这个问题。

1

还引入了物理场景图(Physical Scene Graphs,PSG)和对应的PSGNet网络架构。

PSG的概念概括了MONet/IODINE和3D-RelNet的工作思路,力求能够在几何上处理复杂的物体形状和纹理。

这样,在真实世界的视觉数据中学习,可以做到自监督,因而不需要大量和繁琐的场景组件标记。

具体研究是如何呢?我们一起来看看吧!

PSGNet的建构

简单来说,用一张图就可以表示。

2

棕色方框表示PSGNet的三个阶段。

首先,特征提取。采用ConvRNN从输入中提取特征。

然后,构建图形,负责优化现有PSG级别。

最后,用于端到端训练的图形渲染。

其中,在构建图形这一阶段,由一对可学习的模块组成,即池化和向量化。

前者在现有图节点上动态的构建一个池化核的分区,作为学习的、成对的节点 affinities函数。

后者在与每个池化核相关联的图像区域及其边界上,聚合节点统计,来产生新节点的属性向量。这样便可以直观的表示出真实场景中的物体属性。

在「图形渲染阶段」,PSG相当于通过一个解码器。

在每个时间点将图节点属性,以及图节点顶层空间配准(SR),渲染成RGB、深度、段和RGB变化图z。

举个例子,除开棕色方框部分,就是一个PSG的三个层次以及与其纹理(QTR)和形状(QSR)渲染图。

3

实验结果

随后,将模型在 TDW-Primitives、TDW-Playroom 和 Gibson 测试集上训练,并与最近基于CNN场景分割方法进行性能比较。

首先说一说这三个数据集,为什么要选择这三个数据集呢?

Primitives和Playroom中的图像由ThreeDWorld (TDW)生成。其中,Primitives是在一个简单的3D房间中渲染的原始形状(如球体、圆锥体和立方体)的合成数据集。

Playroom是具有复杂形状和逼真纹理的物体的合成数据集,如动物、家具和工具,渲染为具有物体运动和碰撞的图形。

Gibson则是由斯坦福大学校园内部建筑物的RBG-D扫描组成。

这三个数据集都提供了用于模型监督的RGB、深度和表面法线图。

性能的比较结果如下:

4

注意的是,OP3和PSGNetM没有在Gibson或Primitives上进行训练,因为它们有静态测试集。

可以看到与其他模型相比,PSGNet表现出了更优的性能。

5

△ PSGNets的场景分解

此外,文中还通过「手动编辑」PSG顶层的节点,观察其渲染效果,来说明PSG能够正确的将场景表示为离散的对象及其属性。

就像这样。

6

从图中删除一个节点(DeleteA或者B),将它们移动到新的3D位置(MoveB和Occlude),改变形状属性(Scale/Rot),或者交换两个节点的颜色(Swap RGB)。

结果,发现都会改变相对于原始(Full)预测的图形渲染。

研究团队

这篇论文的研究团队是由斯坦福大学和麻省理工大学多个团队共同合作完成的,其中就包括李飞飞团队和来自MIT CSAIL的团队。

第一作者名叫Daniel Bear,心理学系博士后研究员,来自斯坦福大学吴蔡神经科学研究所。

7

你可能想问,为何研究脑科学的会跟李飞飞团队一起合作呢?

看了这位作者的研究方向你就知道了。

他一直都在致力于研究动物是如何感知世界。

从一开始哈佛大学本科期间,就主要研究动物电信号,比如来自感官刺激的信号,如何诱导神经元基因表达。

接着在哈佛大学继续攻读博士时,就研究化学信号,比如动物遇到的气味分子,如何转化为嗅觉感知。

而现在博士后研究期间,他就把目光转向了采用计算模型来表示动物大脑中的表征。如果可以,给他进一步的研究提供了思路。

于是,他们就这样交织在了一起。

吴蔡神经科学研究所

也许有朋友会对这个研究所的名字有点陌生。

但这是斯坦福大学里以中国人命名的研究所,2018年10月,出于纪念蔡崇信、吴明华夫妇对该所慷慨捐赠,正式命名为吴蔡神经科学研究所。

蔡崇信,大家都不陌生了。阿里巴巴合伙人,最早慧眼识珠加入马云的阿里事业的那个人。

也是鲜有机会,其夫人也被关注到。

8

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-06-29
本文作者:白交
本文来自:“量子位公众号”,了解相关信息可以关注“公众号 QbitAI”

相关文章
|
15天前
|
人工智能 小程序
【一步步开发AI运动小程序】五、帧图像人体识别
随着AI技术的发展,阿里体育等公司推出的AI运动APP,如“乐动力”和“天天跳绳”,使云上运动会、线上健身等概念广受欢迎。本文将引导您从零开始开发一个AI运动小程序,使用“云智AI运动识别小程序插件”。文章分为四部分:初始化人体识别功能、调用人体识别功能、人体识别结果处理以及识别结果旋转矫正。下篇将继续介绍人体骨骼图绘制。
|
3月前
|
编解码 索引
Sora视频重建与创新路线问题之Muse模型想生成高分辨率图像,要如何操作
Sora视频重建与创新路线问题之Muse模型想生成高分辨率图像,要如何操作
|
6月前
|
机器学习/深度学习 算法 数据挖掘
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
597 1
|
5月前
|
机器学习/深度学习 算法
【机器学习】剪贴画图像等文本引导运动生成技术革新
【机器学习】剪贴画图像等文本引导运动生成技术革新
49 1
|
存储 编解码 人工智能
人工智能图像形状检测算法(二)
人工智能图像形状检测算法(二)
211 0
|
人工智能 算法 计算机视觉
人工智能图像形状检测算法(一)
人工智能图像形状检测算法(一)
185 0
|
机器学习/深度学习 监控 数据挖掘
CVPR 2022 | ClonedPerson:从单照片构建大规模真实穿搭虚拟行人数据集
CVPR 2022 | ClonedPerson:从单照片构建大规模真实穿搭虚拟行人数据集
|
机器学习/深度学习 人工智能 供应链
当 AI 遇上合成生物,人造细胞前景几何?
当 AI 遇上合成生物,人造细胞前景几何?
109 0
|
机器学习/深度学习 人工智能 监控
南洋理工提出全场景图生成PSG任务,像素级定位物体,还得预测56种关系
南洋理工提出全场景图生成PSG任务,像素级定位物体,还得预测56种关系
131 0
|
PyTorch 算法框架/工具 计算机视觉