周博磊知乎热答:如何评价何恺明大神斩获ICCV 2017最佳论文

简介: 2017年10月24日下午,Facebook AI 研究员何恺明大神斩获ICCV 2017最佳论文,这是他第三次斩获顶会最佳论文,对于Kaiming He 在 ICCV 2017 上拿下双 Best的paper,他的中大同学,另一位大神周博磊在知乎写了一段他眼中的凯明师兄。


q1

2017年10月24日下午,Facebook AI 研究员何恺明大神斩获ICCV 2017最佳论文,这是他第三次斩获顶会最佳论文,对于Kaiming He 在 ICCV 2017 上拿下双 Best的paper,他的中大同学,另一位大神周博磊在知乎写了一段他眼中的凯明师兄。

大数据文摘经周博磊授权,发布这篇文章,看看大神眼中的大神是什么样?

其实从他发Dark Channel那篇论文开始,我就挺关注他的研究工作。那时候还是前Deep Learning时代的计算机视觉,一切都还不怎么work,还流行着LDA和各种graphical models。他那几篇low-level vision的论文读完就让人有眼前一亮的感觉,很多时候论文的立意都是从现象出发,然后追溯到背后的本质,然后再提出了一个朴实有效的解决问题的办法。虽然我自己不做low-level vision,但这些论文读完让我有 “啊哈” 的欣喜感觉,受到挺大的启发。这种从现象和问题出发追溯本质的思想,给他后面更加优秀和广为人知的工作埋下了重要的伏笔。

后来恺明从中大(CUHK)博士毕业在MSRA当研究员的时候就开始领队打ImageNet比赛了,做image classification的问题。从low-level vision到high-level vision,对于一般研究者,本来是个挺大的转变。但这恰好赶上了deep learning的浪潮,如何训练更好的分类神经网络本身是个非常empirical的研究问题。神经网络太复杂了,很难有什么理论指导,所以这玩意更像一个现象。

这样,恺明之前的从现象到本质的研究方式让他发现了神经网络中很多的问题所在,并提出了一些很有效的解决办法。比如说从防治gradient vanishing问题, 导出了Parametric ReLU,以及进一步提出后来封神的ResNet。再比如针对在object detection里如何更有效地利用CNN feature map, 提出了Spatial Pyramid Networks,到后来Fast RCNN, 跟Ross一起的Faster RCNN, 以及现在获奖的Mask RCNN。你可以很清楚地看出这些优秀研究工作的连贯性。在一个研究问题上死磕5,6年,在现在这个乱花迷人眼的时代非常难得。而且这image classification and object detection是计算机视觉的核心问题,恺明能解决得如此漂亮,真是由衷佩服,对这个领域推动也是巨大的(连AlphaGo Zero都用了residual block,可以想象Resnet是如何应用到计算机视觉的研究和产品线中去的)。当然,恺明的这些研究工作有很多顶级优秀的Collaborator参与,比如说他MSRA的孙老大(现Face++),两位顶尖实习生Xiangyu Zhang, Shaoqing Ren,以及FAIR的顶尖高手Ross和Pitor等等,这里就不展开了。

恺明去年夏末的时候才从MSRA到美国来加入Facebook AI Research,一年不到就搞出了MaskRCNN这个黑武器。MaskRCNN是semantic segmentation和object detection的一个结合,成为了instance segmentation的利器。Facebook内部工程线上面都广泛部署了Resnet和MaskRCNN,想必对公司贡献是非常大的。三周前我刚去FB总部参加了一个workshop,跟他聊了些近况和新的研究方向。你们的恺明大神还是依旧战斗在coding最前线的,哈哈,我是不会透露他正在蕴酿下一个什么大招的,大家期待就是了。

最后,大家可以再留意一下ICCV'17最后一天(也就是这周末)的Workshop COCO + Places 2017 。我参与举办了这次joint challenge,比赛项目是object detection, keypoint detection, scene parsing, instance segmentation等等。一个看点是,Kaiming和Ross所在的FAIR团队如何对垒中国的一些视觉公司如Face++和SenseTime等等,比赛结果会在当天揭晓。结果挺有意思,也值得大家思考。
原文发布时间为:2017-10-26
本文作者:周博磊
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

相关文章
|
9月前
|
机器学习/深度学习 人工智能 Serverless
👉「免费满血DeepSeek实战-联网搜索×Prompt秘籍|暨6平台横评」
满血 DeepSeek 免费用!支持联网搜索!创作声明:真人攥写-非AI生成,Written-By-Human-Not-By-AI
5009 10
👉「免费满血DeepSeek实战-联网搜索×Prompt秘籍|暨6平台横评」
|
网络协议 Go 网络安全
一种远程升级PLC和HMI组态屏程序的方法-做个笔记
一种远程升级PLC和HMI组态屏程序的方法-做个笔记
353 2
|
机器学习/深度学习 自然语言处理 算法
汉字的探索性分词方式:基于字图的部首分解与图神经网络的多因素表示
本文提出一种结合传统字符嵌入与部首结构的图表示法,用于捕捉汉字的语义和组成结构,提升大模型对汉字的理解能力。方法包括将字符分解为部首,构建部首图,并利用图卷积网络生成嵌入。此方法增强了模型的泛化能力和灵活性,并提供了代码实现。未来可优化的方向包括改进图构建算法、扩展部首系统、探索更先进的图神经网络架构及多模态融合。
380 2
|
Python
python(pip)包/模块:如何离线安装?
python(pip)包/模块:如何离线安装?
477 0
|
开发框架 网络协议 Java
web搜集-指纹识别 课程笔记
web搜集-指纹识别 课程笔记
|
物联网 PyTorch 算法框架/工具
介绍一个大语言模型的微调框架Swift | AIGC
介绍一个大语言模型的微调框架Swift 【7月更文挑战第4天】
2025 3
|
人工智能 缓存 安全
Golang 搭建 WebSocket 应用(七) - 性能、可用性
Golang 搭建 WebSocket 应用(七) - 性能、可用性
169 1
|
机器学习/深度学习 数据采集 自然语言处理
【Deep Learning A情感文本分类实战】2023 Pytorch+Bert、Roberta+TextCNN、BiLstm、Lstm等实现IMDB情感文本分类完整项目(项目已开源)
亮点:代码开源+结构清晰+准确率高+保姆级解析 🍊本项目使用Pytorch框架,使用上游语言模型+下游网络模型的结构实现IMDB情感分析 🍊语言模型可选择Bert、Roberta 🍊神经网络模型可选择BiLstm、LSTM、TextCNN、Rnn、Gru、Fnn共6种 🍊语言模型和网络模型扩展性较好,方便读者自己对模型进行修改
1163 0
|
机器学习/深度学习 编解码 数据可视化
UNet 和 UNet++:医学影像经典分割网络对比
UNet 和 UNet++:医学影像经典分割网络对比
1980 0
|
安全 Shell Linux
LabVIEW中写入或读取文件时出现error 8
LabVIEW中写入或读取文件时出现error 8
423 0