完整复现何恺明ICCV获奖论文结果并开源 !(附论文&开源代码)

简介:

ICCV 作为计算机视觉的顶级会议,2017年共收到2143篇论文投稿,比上一届ICCV2015的1698篇增加了26.2%。共621篇被选为大会论文,录用比例28.9%;poster、spotlight、oral 比例分别为24.61%、2.61%和2.09%。
组委会根据作者署名统计了不同大学的研究数目,清华大学超过CMU、MIT、ICL、斯坦福以及谷歌名列第一,上海交通大学、北京航空航天大学也在前10当中。

1

而此次大会最大的新闻一定是何恺明大神在 ICCV 上拿下了双best paper!继两次荣获 CVPR 最佳论文奖之后,何恺明参与的两篇最新论文又分别摘下 ICCV 2017 的最佳论文奖(Best Paper Award)和最佳学生论文(Best Student Paper Award)两项大奖。
这两篇获奖论文分别是今年 4 月发布的《Mask R-CNN》以及今年 8 月发布的《Focal Loss for Dense Object Detection》,两者都是今年发布,而且相隔仅仅 4 个月。要知道 ICCV 是计算机视觉领域顶级会议之一,且两年举办一次,而何恺明作为两篇论文的第一作者和第四作者,足以证明他的实力。
两篇获奖论文简介:

2

论文简介:我们提出了一个简单、灵活和通用的对象实例分割框架。我们的方法能有效检测图像中的对象,同时为每个实例生成高质量的 segmentation mask。这种被称为 Mask R-CNN 的方法通过添加用于预测 object mask 的分支来扩展 Faster R-CNN,该分支与用于边界框识别的现有分支并行。Mask R-CNN 训练简单,只需在以 5fps 运行的 Faster R-CNN 之上增加一个较小的 overhead。此外,Mask R-CNN 很容易推广到其他任务,例如它可以允许同一个框架中进行姿态估计。我们在 COCO 系列挑战的三个轨道任务中均取得了最佳成果,包括实例分割、边界对象检测和人关键点检测。没有任何 tricks,Mask R-CNN 的表现优于所有现有的单一模型取得的成绩,包括 COCO 2016 挑战赛的冠军。

论文地址:
https://arxiv.org/abs/1703.06870


3

论文简介:目前准确度最高的目标检测器采用的是一种常在 R-CNN 中使用的 two-stage 方法,这种方法将分类器应用于一个由候选目标位置组成的稀疏样本集。相反,one-stage 检测器则应用于一个由可能目标位置组成的规则密集样本集,而且更快更简单,但是准确度却落后于 two-stage 检测器。在本文中,我们探讨了造成这种现象的原因。
我们发现,在训练密集目标检测器的过程中出现的严重的 foreground-background 类别失衡,是造成这种现象的主要成因。我们解决这种类别失衡(class imbalance )的方案是,重塑标准交叉熵损失,使其减少分类清晰的样本的损失的权重。Focal Loss 将训练集中在一个稀疏的困难样本集上,并防止大量简单负样本在训练的过程中淹没检测器。为了评估该损失的有效性,我们设计并训练了一个简单的密集目标检测器—RetinaNet。试验结果证明,当使用 Focal Loss训练时,RetinaNet 不仅能赶上 one-stage 检测器的检测速度,而且还在准确度上超越了当前所有最先进的 two-stage 检测器。

4

我们提出了一种新的损失函数 Focal Loss(焦点损失),这个损失函数在标准的交叉熵标准上添加了一个因子 (1- pt) γ 。设定 γ > 0 可以减小分类清晰的样本的相对损失(pt > .5),使模型更加集中于困难的错误分类的样本。试验证明,在存在大量简单背景样本(background example)的情况下,我们提出的 Focal Loss 函数可以训练出准确度很高的密集对象检测器。

论文地址
https://arxiv.org/abs/1708.02002

大家纷纷表达对恺明大神的崇拜以及对最优秀的学术研究人员表达敬意。与此同时,很多从业者更关心的问题是:什么时候能看到开源代码?
一家AI科技企业——图森未来表示:致敬大神最好的方式,或许就是完整复现论文结果,然后再开源了。他们完整复现了何恺明大神的论文结果(Mask R-CNN 和 Feature Pyramid Network),并将对应代码进行了开源!这也是第一份能够完整复现何恺明大神论文结果的开源代码。
原文发布时间为:2017-10-26
本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关文章
|
机器学习/深度学习 自然语言处理 算法
ICLR 2022—你不应该错过的 10 篇论文(上)
ICLR 2022将于2022年 4 月 25 日星期一至 4 月 29 日星期五在线举行(连续第三年!)。它是深度学习研究领域规模最大、最受欢迎的会议之一,它汇集了超过 1000 篇论文、19 个研讨会和 8 个特邀报告。主题涵盖 ML 理论、强化学习 (RL)、计算机视觉 (CV) )、自然语言处理 (NLP)、神经科学等等
221 0
ICLR 2022—你不应该错过的 10 篇论文(上)
|
机器学习/深度学习 存储 自然语言处理
ICLR 2022—你不应该错过的 10 篇论文(下)
ICLR 2022将于2022年 4 月 25 日星期一至 4 月 29 日星期五在线举行(连续第三年!)。它是机器学习研究领域规模最大、最受欢迎的会议之一,它汇集了超过 1000 篇论文、19 个研讨会和 8 个特邀报告。主题涵盖 ML 理论、强化学习 (RL)、计算机视觉 (CV) )、自然语言处理 (NLP)、神经科学等等。
150 0
|
机器学习/深度学习 人工智能 自然语言处理
史上最全Transformer合集!LeCun力推:给60个模型建目录,哪篇论文你错过了?
史上最全Transformer合集!LeCun力推:给60个模型建目录,哪篇论文你错过了?
405 0
|
机器学习/深度学习 编解码 自然语言处理
StackGAN 论文阅读笔记(二)
StackGAN 论文阅读笔记(二)
87 0
StackGAN 论文阅读笔记(二)
|
机器学习/深度学习 人工智能 自然语言处理
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
深度生成模型可以在高分辨率下进行逼真的图像合成。但对于许多应用来说,这还不够:内容创作还需要可控。虽然最近有几项工作研究了如何分解数据中的潜在变化因素,但它们大多在二维中操作,忽略了我们的世界是三维的。
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
|
人工智能 算法 计算机视觉
MMTracking 食用指南 | 视频目标检测(附AAAI2021论文解读)
VID 旨在检测视频中每一帧出现的物体。 与目标检测相比, VID 允许来自一个视频里的多帧作为输入,但输出形式与目标检测一致。 与多目标跟踪相比, VID 不要求对不同帧中的同一目标进行关联,只需检测出目标即可。
937 0
MMTracking 食用指南 | 视频目标检测(附AAAI2021论文解读)
|
机器学习/深度学习 存储 人工智能
NeurIPS提前看 | 四篇论文,一窥元学习的最新研究进展
2019 年,NeurIPS 接受与元学习相关的研究论文约有 20 余篇。元学习(Meta-Learning)是近几年的研究热点,其目的是基于少量无标签数据实现快速有效的学习。本文对本次接收的元学习论文进行了梳理和解读。
1218 0
NeurIPS提前看 | 四篇论文,一窥元学习的最新研究进展
|
机器学习/深度学习 人工智能 自然语言处理
AAAI 2020 提前看 | 三篇论文解读问答系统最新研究进展
2020 年 2 月 7 日至 12 日,AAAI 2020 将于美国纽约举办。今年 AAAI 共接受了 8800 篇提交论文,其中评审了 7737 篇,接收 1591 篇,接收率为 20.6%。为了向读者们介绍更多 AAAI2020 的优质论文,机器之心组织策划了 AAAI 2020 论文分享,邀请国内外著名大学、研究机构以及工业界的研究人员详细介绍他们发布在 AAAI 2020 的文章,欢迎大家持续关注。
305 0
AAAI 2020 提前看 | 三篇论文解读问答系统最新研究进展
|
机器学习/深度学习 Web App开发 算法
ICML 2018大奖出炉:伯克利、MIT获最佳论文(附论文、项目链接)
人工智能顶级会议ICML 2018即将于7月10日至15日在瑞典首都斯德哥尔摩举行。昨天,大会提前公布了最佳论文获奖名单,在超过600篇被接收论文中,来自MIT和UC Berkeley的研究人员分享了最佳论文的殊荣。
1563 0