Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017-阿里云开发者社区

开发者社区> 云栖大讲堂> 正文

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

简介:
+关注继续查看

CVPR是IEEE一年一度的计算机视觉与模式识别技术会议,也是计算机视觉的世界三大顶会之一。2017年的CVPR会议将于7月21日到26日于夏威夷Convention中心召开,雷锋网将赴前线做覆盖与报道。

论文一:ResNext:Aggregated Residual Transformations for Deep Neural Networks

深层神经网络的聚合残差变换

论文作者:Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu1, Kaiming He

论文链接:https://arxiv.org/abs/1611.05431

论文摘要:

据雷锋网(公众号:雷锋网)了解,Facebook团队和圣地亚哥大学的AI研究员提出了一种采用VGG / ResNets重复层次策略的图像分类网络架构。该网络中的一个模块执行一组转换,每个转换都是低维嵌入的,其输出是通过求和计算得到的。为了简单的实现这个想法,这些聚合的转换都具有相同的拓扑。这种设计可以自由的扩展到任何大量的转换,而无需专门设计。

在这种简化的情况下,该模型有两种其他等效形式。

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

ResNeXt的等效构建块。 (a):聚集残余变换(b):等同于(a),执行早期并置。 (c):等同于(a,b),执行分组卷积。

该团队的简单设计产生了一个均一的多分支架构,只需要设定几个超参数。这个策略揭示了一个全新的维度,称为“基数”(即转换集合的大小),它是除了深度和宽度的尺寸之外的又一个重要因素。

在ImageNet-1K数据集上,该团队的实验表明,即使在保持复杂性的限制条件下,增加基数也能够提高分类精度。此外,当增加容量的时候,增加基数相对于增加深度和宽度而言更加有效。随着基数C从1增加到32,保持复杂性的同时,错误率却不断降低。

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

ImageNet-1K消融实验。 (上半部分):ResNet-50具有复杂性(41亿FLOP); (下半部分):ResNet-101具有复杂性(78亿FLOP)。 错误率在224〜224个像素的单个体上进行评估。

该团队的名为ResNeXt的模型,是他们打入ILSVRC 2016分类任务的基础,他们在此次任务当中获得了第二名。该团队还进一步调查了ImageNet-5K集和COCO检测集上的ResNeXt,与ResNet对应相比,都显示出更好的结果。


论文二:Feature Pyramid Networks for Object Detection

 用于对象检测的特征金字塔网络

论文作者:Tsung-Yi Lin, Piotr Doll, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie

论文链接: https://arxiv.org/pdf/1612.03144.pdf

论文摘要:

特征图像金字塔(featurized image pyramids)是用于检测不同尺度物体的识别系统的基本组成部分。但最近的深度学习对象检测器避免了使用金字塔表示方法,部分原因是由于它们是由计算得出的并且内存紧张。

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

图1(a)使用图像金字塔构建特征金字塔。 在每个图像尺度上独立地计算特征,速度很慢。 (b)最近的检测系统选择仅使用单一尺度特征来更快地检测。 (c)一个替代方案是重新使用由ConvNet计算得到的金字塔特征层次,就好像它是一个特征化的图像金字塔。 (d)本文提出的特征金字塔网络(FPN)如(b)和(c)所示,但更准确。 在该图中,特征图由蓝色轮廓表示,较粗的轮廓表示语义上更强的特征。

在本文中,谷歌团队和康奈尔大学团队利用深度卷积网络((ConvNets))的特征结构的金字塔形状,同时创建一个具有强大语义的特征金字塔。 为了实现这一目标,需要依靠一种通过自上而下的路径和横向连接低分辨率、语义强大的特征与高分辨率,语义薄弱的特征,将它们连接组成架构(图1(d))。 结果是组成一个在所有级别都具有丰富的语义的特征金字塔,并且可以使用单个输入图像快速构建。 换句话说,本文展示了如何创建网络中的特征金字塔,可以用来替代特征图像金字塔而同时不牺牲速度或内存。该方法利用架构作为特征金字塔,其中每个级别独立地做出预测(例如,对象检测)

通过对小型,中型和大型对象(ARs,ARm和ARl)的平均回忆AR,以及COCO-style的平均回忆(AR)来进行评估。 报告每个图像100和1000个提案的结果(AR100和AR1k)。

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

表1.使用RPN的边界框提案结果,对COCO最小值进行了评估。 所有型号都在trainval35k上训练。 “横向”和“自顶向下”列分别表示侧向和自顶向下的连接。 列“特征”表示顶部附着的特征图。 所有结果都基于ResNet-50,并且共享相同的超参数。

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

表2.使用 Fast R-CNN 对固定的提案集(RPN,{Pk},表1(c))的对象检测结果,在COCO最小值集上进行评估。 模型在trainval35k上训练。 所有结果都基于ResNet-50,并且共享相同的超参数。

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

表3.使用Faster R-CNN [29]的对象检测结果对COCO最小值进行了评估。 RPN网络与Fast R-CNN一致。 模型在trainval35k上进行培训,并使用ResNet-50。

这种称为功能金字塔网络(FPN)的架构在几个应用程序中作为通用特征提取器都显示出了显着的改进。在basic Faster R-CNN系统中使用FPN,能够在COCO检测基准上获得最先进的单一模型结果,在没有响铃和口哨声的情况下,超过了所有现有的单一模型条目,包括了COCO 2016挑战赛的获奖者。此外,该金字塔结构可以用所有尺度进行训练,并在训练/测试时间也可以一致的使用。 因此,FPN能够比所有现有的方法获得更高的精度。 此外,这种改进是在单一规模基线上不增加测试时间的情况下实现的。 研究者相信这些进展将有助于未来的研究和应用。该方法可以在GPU上以6 FPS运行,因此是多尺度对象检测的实用且准确的解决方案。

论文一:Learning Features by Watching Objects Move

通过观察物体移动来学习特征

论文作者:Deepak Pathak, Ross Girshick, Piotr Doll, Trevor Darrell, Bharath Hariharan1

Learning Features by Watching Objects Move

论文链接:https://arxiv.org/abs/1612.06370

论文摘要:

本文提出了一种新颖而直观的无监管特征学习方法。 该方法是受到人类视觉系统的启发而得来的。一起移动的像素往往是同属于一个物体的。 解析静态场景的能力随着时间的推移而改善,这表明基于运动的分组出现在早期,静态分组将在随后可能是基于由运动线索引导而获取的。

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

图1.低等级的外观线索导致错误的分组(右上角)。 运动可以帮助正确地分组,在一起移动的像素(左下方)将被识别为同一组的单个对象(右下)。使用无监督的基于运动的分组来训练ConvNet来分割静态图像中的对象,并显示出网络能够学习特征,并将其应用到其他任务中。

该团队在探讨是否可以使用基于低级运动的分组线索来学习有效的视觉表示。 具体来说,他们将使用无监督的基于运动的视频片段来获得分段,并将其用作“伪地面真相”来训练卷积网络,以从单个帧中分割识别对象。

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

图2.方法概述 使用运动线索来分割视频中的对象而无需任何监督。 然后,对ConvNet进行训练,从静态帧中预测这些分段,即没有任何运动线索。 然后,将学习的到的物体表示应用到其他识别任务中。

Facebook 在CVPR 2017的四篇论文精选解读|CVPR 2017

图7. ConvNet上生成的图像分段示例。 ConvNet能够识别运动对象,并从单个框架中分割出来。 掩码并不完美,但它们确实能捕捉到一般物体的形状。

鉴于广泛证据显示,运动在人类视觉系统发展中发挥着关键作用,他们希望这种无监督学习的直接的方法将比在文献中研究的巧妙设计的任务更有效。 事实上,广泛的实验表明,用于物体检测的转移学习时,该方法的表现在多种设置中都显着优于以前的无监督方法。特别是当目标任务的训练数据很少时,即使大多数ConvNet参数被冻结,该方法也保持着良好的性能。

本文作者:哈帝•白求恩

本文转自雷锋网禁止二次转载,原文链接

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
怎么设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程
7005 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4519 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
7830 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
5478 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
9445 0
阿里云服务器远程登录用户名和密码的查询方法
阿里云服务器远程连接登录用户名和密码在哪查看?阿里云服务器默认密码是什么?云服务器系统不同默认用户名不同
483 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
2154 0
+关注
云栖大讲堂
擅长前端领域,欢迎各位热爱前端的朋友加入我们( 钉钉群号:23351485)关注【前端那些事儿】云栖号,更多好文持续更新中!
3892
文章
1754
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载