李飞飞团队最新研究,真实场景中识别物体具体属性,连表面纹理都识别出来了

简介: 云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 现在,细微到物体表面的纹理,AI都可以识别。 这就是李飞飞团队新研究。 我们知道,卷积神经网络在识别视觉对象方面很出色,但还不能很好的识别出物体的具体属性,比如表面形状、纹理等。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!


现在,细微到物体表面的纹理,AI都可以识别。

这就是李飞飞团队新研究。

我们知道,卷积神经网络在识别视觉对象方面很出色,但还不能很好的识别出物体的具体属性,比如表面形状、纹理等。

而最近,李飞飞团队的最新研究——Learning Physical Graph Representations from Visual Scenes,就一举解决了这个问题。

1

还引入了物理场景图(Physical Scene Graphs,PSG)和对应的PSGNet网络架构。

PSG的概念概括了MONet/IODINE和3D-RelNet的工作思路,力求能够在几何上处理复杂的物体形状和纹理。

这样,在真实世界的视觉数据中学习,可以做到自监督,因而不需要大量和繁琐的场景组件标记。

具体研究是如何呢?我们一起来看看吧!

PSGNet的建构

简单来说,用一张图就可以表示。

2

棕色方框表示PSGNet的三个阶段。

首先,特征提取。采用ConvRNN从输入中提取特征。

然后,构建图形,负责优化现有PSG级别。

最后,用于端到端训练的图形渲染。

其中,在构建图形这一阶段,由一对可学习的模块组成,即池化和向量化。

前者在现有图节点上动态的构建一个池化核的分区,作为学习的、成对的节点 affinities函数。

后者在与每个池化核相关联的图像区域及其边界上,聚合节点统计,来产生新节点的属性向量。这样便可以直观的表示出真实场景中的物体属性。

在「图形渲染阶段」,PSG相当于通过一个解码器。

在每个时间点将图节点属性,以及图节点顶层空间配准(SR),渲染成RGB、深度、段和RGB变化图z。

举个例子,除开棕色方框部分,就是一个PSG的三个层次以及与其纹理(QTR)和形状(QSR)渲染图。

3

实验结果

随后,将模型在 TDW-Primitives、TDW-Playroom 和 Gibson 测试集上训练,并与最近基于CNN场景分割方法进行性能比较。

首先说一说这三个数据集,为什么要选择这三个数据集呢?

Primitives和Playroom中的图像由ThreeDWorld (TDW)生成。其中,Primitives是在一个简单的3D房间中渲染的原始形状(如球体、圆锥体和立方体)的合成数据集。

Playroom是具有复杂形状和逼真纹理的物体的合成数据集,如动物、家具和工具,渲染为具有物体运动和碰撞的图形。

Gibson则是由斯坦福大学校园内部建筑物的RBG-D扫描组成。

这三个数据集都提供了用于模型监督的RGB、深度和表面法线图。

性能的比较结果如下:

4

注意的是,OP3和PSGNetM没有在Gibson或Primitives上进行训练,因为它们有静态测试集。

可以看到与其他模型相比,PSGNet表现出了更优的性能。

5

△ PSGNets的场景分解

此外,文中还通过「手动编辑」PSG顶层的节点,观察其渲染效果,来说明PSG能够正确的将场景表示为离散的对象及其属性。

就像这样。

6

从图中删除一个节点(DeleteA或者B),将它们移动到新的3D位置(MoveB和Occlude),改变形状属性(Scale/Rot),或者交换两个节点的颜色(Swap RGB)。

结果,发现都会改变相对于原始(Full)预测的图形渲染。

研究团队

这篇论文的研究团队是由斯坦福大学和麻省理工大学多个团队共同合作完成的,其中就包括李飞飞团队和来自MIT CSAIL的团队。

第一作者名叫Daniel Bear,心理学系博士后研究员,来自斯坦福大学吴蔡神经科学研究所。

7

你可能想问,为何研究脑科学的会跟李飞飞团队一起合作呢?

看了这位作者的研究方向你就知道了。

他一直都在致力于研究动物是如何感知世界。

从一开始哈佛大学本科期间,就主要研究动物电信号,比如来自感官刺激的信号,如何诱导神经元基因表达。

接着在哈佛大学继续攻读博士时,就研究化学信号,比如动物遇到的气味分子,如何转化为嗅觉感知。

而现在博士后研究期间,他就把目光转向了采用计算模型来表示动物大脑中的表征。如果可以,给他进一步的研究提供了思路。

于是,他们就这样交织在了一起。

吴蔡神经科学研究所

也许有朋友会对这个研究所的名字有点陌生。

但这是斯坦福大学里以中国人命名的研究所,2018年10月,出于纪念蔡崇信、吴明华夫妇对该所慷慨捐赠,正式命名为吴蔡神经科学研究所。

蔡崇信,大家都不陌生了。阿里巴巴合伙人,最早慧眼识珠加入马云的阿里事业的那个人。

也是鲜有机会,其夫人也被关注到。

8

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-06-29
本文作者:白交
本文来自:“量子位公众号”,了解相关信息可以关注“公众号 QbitAI”

相关文章
|
29天前
|
人工智能 并行计算 测试技术
AI计算机视觉笔记三十一:基于UNetMultiLane的多车道线等识别
该项目基于开源数据集 VIL100 实现了 UNetMultiLane,用于多车道线及车道线类型的识别。数据集中标注了六个车道的车道线及其类型。项目详细记录了从环境搭建到模型训练与测试的全过程,并提供了在 CPU 上进行训练和 ONNX 转换的代码示例。训练过程约需 4 小时完成 50 个 epoch。此外,还实现了视频检测功能,可在视频中实时识别车道线及其类型。
|
2月前
|
编解码 索引
Sora视频重建与创新路线问题之Muse模型想生成高分辨率图像,要如何操作
Sora视频重建与创新路线问题之Muse模型想生成高分辨率图像,要如何操作
|
5月前
|
机器学习/深度学习 算法 数据挖掘
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
535 1
|
传感器 Web App开发 机器学习/深度学习
计算机视觉教程0-3:为何拍照会有死亡视角?详解相机矩阵与畸变
计算机视觉教程0-3:为何拍照会有死亡视角?详解相机矩阵与畸变
630 0
计算机视觉教程0-3:为何拍照会有死亡视角?详解相机矩阵与畸变
|
机器学习/深度学习 监控 数据挖掘
CVPR 2022 | ClonedPerson:从单照片构建大规模真实穿搭虚拟行人数据集
CVPR 2022 | ClonedPerson:从单照片构建大规模真实穿搭虚拟行人数据集
|
机器学习/深度学习 人工智能 监控
南洋理工提出全场景图生成PSG任务,像素级定位物体,还得预测56种关系
南洋理工提出全场景图生成PSG任务,像素级定位物体,还得预测56种关系
120 0
|
机器学习/深度学习 运维 固态存储
AI-无损检测方向速读:基于深度学习的表面缺陷检测方法综述
在真实复杂的工业环境下,表面缺陷检测往往面临诸多挑战,例如存在缺陷成像与背景差异小、对比度低、缺陷尺度变化大且类型多样,缺陷图像中存在大量噪声,甚至缺陷在自然环境下成像存在大量干扰等情形,如图1所示,此时经典方法往往显得束手无策,难以取得较好的效果。
4538 0
|
机器学习/深度学习 传感器 固态存储
基于深度学习的鱼眼图像中的停车位识别和分类(毕业设计+代码)
基于深度学习的鱼眼图像中的停车位识别和分类(毕业设计+代码)
|
算法 数据可视化
【视觉高级篇】25 # 如何用法线贴图模拟真实物体表面
【视觉高级篇】25 # 如何用法线贴图模拟真实物体表面
156 0
【视觉高级篇】25 # 如何用法线贴图模拟真实物体表面
|
机器学习/深度学习 编解码 人工智能
首篇BEV感知生成工作!BEVGen:从鸟瞰图布局生成环视街景图像
本文提出了BEVGen,这是一个条件生成式模型,它合成了一组真实且空间一致的环视图像,这些图像与交通场景的BEV布局相匹配。BEVGen结合了一种新颖的交叉视图转换和空间注意力设计,学习相机和地图视图之间的关系,以确保它们的一致性。BEVGen可以精确地渲染道路和车道线,以及在不同的天气条件和时间生成交通场景。
首篇BEV感知生成工作!BEVGen:从鸟瞰图布局生成环视街景图像
下一篇
无影云桌面