Uber发布的CoordConv遭深度质疑,“翻译个坐标也需要训练?”

简介: 前几天,Uber AI实验室发布了一篇非常瞩目的论文,说卷积神经网络 (CNN) 在一些很简单很直接的任务里面,会失守。

前几天,Uber AI实验室发布了一篇非常瞩目的论文,说卷积神经网络 (CNN) 在一些很简单很直接的任务里面,会失守。


image

比如,一张白色图片,上面有个黑点。给CNN喂食这个点的 (i,j) 坐标,它就是画不出原来那幅图。

总结起来,监督渲染、监督坐标分类,以及监督回归,对CNN来说都是大难题。

于是,团队提出了CoordConv,来回收这些失陷的领土。



image


不过很快,这篇论文,和拯救CNN的主角CoordConv,就被一篇有点长的博文“鞭尸”了。

博客的主人Filip Piekniewski (暂称菲菲) 说,他给这项研究做了尸检。

加个特征,而已

首先,关于 (上文白纸黑点) 定位问题,Uber团队发现,CNN不擅长把笛卡尔坐标 (i,j) 转换成独热像素空间 (One-Hot Pixel Space) 里的位置。

菲菲提到,CNN的结构,从福岛邦彦新认知机 (Neocognitron) 的年代开始,基本就设计成“忽略位置”的了。



image

而CoordConv要做的,就在给神经网络的输入里,加上两个坐标通道,一个i一个j,明确告诉AI哪是哪。

果然很有道理啊。可是……

总感觉,随便一个小伙伴在实操的时候,都能对CNN做个类似的小加工,就是加个特征,解码起来更舒服嘛。

菲菲说,做计算机视觉的同行们,没有人会觉得加了几个特征就是不得了的事情。

image

△ 平平无奇
虽然,有一个非常火热纯学术辩题,就是一些学者认为,大家只应该用那些学习到的特征 (Learned Features) ,而经济实用派的选手们不同意。

从这个角度上来说,如今现在深度学习圈的人们,也开始认同特征工程 (Feature Engineering) 了,可以可以可以。

训练成果,啊这也需要训练?

加了一层坐标之后,团队就测试了一下神经网络的表现。

可爱的是,这里用的数据集名字叫“Not-So-Clevr”。


image

任务就是,用坐标生成独热图像,以及用独热图像生成坐标。

结果表明,神经网络的性能确实比没加那一层的时候,好了一些。

不过,如果这些人不要那么激动,坐下冷静冷静,可能就会发现,直接搭一个能把笛卡尔坐标和独热编码互相转换的神经网络,不就好了么?

菲菲有了这个想法,就自己写了一串代码——

1import scipy.signal as sp
2import numpy as np
3# Fix some image dimensions
4I_width = 100
5I_height = 70
6# Generate input image
7A=np.zeros((I_height,I_width))
8# Generate random test position
9pos_x = np.random.randint(0, I_width-1)
10pos_y = np.random.randint(0, I_height-1)
11# Put a pixel in a random test position
12A[pos_y, pos_x]=1
13# Create what will be the coordinate features
14X=np.zeros_like(A)
15Y=np.zeros_like(A)
16# Fill the X-coordinate value
17for x in range(I_width):
18   X[:,x] = x
19# Fill the Y-coordinate value
20for y in range(I_height):
21   Y[y,:] = y
22# Define the convolutional operators
23op1 = np.array([[0, 0, 0],
24                [0, -1, 0],
25                [0, 0, 0]])
26opx = np.array([[0, 0, 0],
27                [0, I_width, 0],
28                [0, 0, 0]])
29opy = np.array([[0, 0, 0],
30                [0, I_height, 0],
31                [0, 0, 0]])
32# Convolve to get the first feature map DY
33CA0 = sp.convolve2d(A, opy, mode='same')
34CY0 = sp.convolve2d(Y, op1, mode='same')
35DY=CA0+CY0
36# Convolve to get the second feature map DX
37CA1 = sp.convolve2d(A, opx, mode='same')
38CX0 = sp.convolve2d(X, op1, mode='same')
39DX=CA1+CX0
40# Apply half rectifying nonlinearity
41DX[np.where(DX<0)]=0
42DY[np.where(DY<0)]=0
43# Subtract from a constant (extra layer with a bias unit)
44result_y=I_height-DY.sum()
45result_x=I_width-DX.sum()
46# Check the result
47assert(pos_x == int(result_x))
48assert(pos_y == int(result_y))
49print result_x 
50print result_y

一个卷积层,一个非线性激活,一个加和,一个减法。解决战斗。

他说,这种事情,就别花时间训练了。

100个GPU

论文主体结束之后,正片才开始。

Appendix里面,有这样一个表格。

image

Uber团队拿他们的坐标特征,在ImageNet上搞了一下。

具体做法是,加在了ResNet-50的第一层。

菲菲觉得,这样玩应该没什么X用,因为ImageNet里的类别,根本不是位置的函数。就算开始有这样的偏见,训练中的数据扩增也会把它抹掉了。

令人惊喜的是,研究人员用了100个GPU来训练这个改进之后的神经网络。

结果是,到了小数点后第三位,他们终于获得了微弱的安慰奖。

image

菲菲说,如果有一万台GPU,大概也是可以用上的,无限风光,在险峰嘛。

真有那么壕的话,不想做点更有意义的训练么?

请开始你的表演

菲菲的嘲讽熔成一句话——

这样的作品,还有人叫好,真让人难过。

那么,你怎么看?

原文发布时间为:2018-07-16
本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位

相关文章
|
17天前
|
机器学习/深度学习 人工智能 数据安全/隐私保护
大发现!谷歌证明反学习,无法让大模型删除不良信息
【9月更文挑战第19天】最近,Ilia Shumailov等人发表的论文《UnUnlearning:反学习在大语言模型中的内容监管不足》在人工智能领域引发了热议。该论文探讨了反学习在大型语言模型中的应用,指出反学习虽能有效控制训练阶段的数据撤回,但在推理阶段仍可能执行非法行为,引入了“反反学习”的概念。这一发现对内容监管产生重要影响,但也引发了关于反学习有效性的争议。详细内容与讨论可见论文原文:https://arxiv.org/abs/2407.00106
29 1
|
3月前
|
传感器 自动驾驶 算法
自动驾驶理论新突破登Nature子刊!清华、密歇根联合提出三条技术路线,剑指稀疏度灾难
【7月更文挑战第6天】清华大学与密歇根大学研究团队在Nature子刊发表突破性成果,针对自动驾驶的“稀疏度灾难”提出三条技术路线:数据驱动、模型驱动及混合驱动,旨在提升系统应对罕见场景的能力,确保安全性和鲁棒性。这一进展为解决自动驾驶在复杂环境中的决策难题开辟了新途径。[论文链接](https://doi.org/10.1038/s41467-024-49194-0)**
35 3
|
5月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
62 0
|
机器学习/深度学习 人工智能 算法
OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流
OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流
114 0
|
机器学习/深度学习 数据采集 移动开发
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(1)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
270 0
|
数据采集 机器学习/深度学习 搜索推荐
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(2)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
185 0
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
127 0
|
机器学习/深度学习 数据可视化 数据挖掘
CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
213 0
|
机器学习/深度学习 算法 计算机视觉
让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
让换脸无所遁形!南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
136 0
|
机器学习/深度学习 人工智能 自然语言处理
参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」
参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」
129 0
下一篇
无影云桌面