【ImageNet最后的冠军】颜水成：像素级标注数据集将引领计算机视觉下一个时代-阿里云开发者社区

颜水成，360副总裁、人工智能研究院院长，新加坡国立大学终身教职，作为计算机视觉界的老将，今年他和他的前学生Feng Jiashi助理教授一起带领团队摘得了ImageNet Challenge收官之战的 “皇冠”，同时5年前他同样带领团队摘得了PASCAL VOC收官之战的“皇冠”。

这次专访，他将带着我们看：未来计算机视觉研究还能怎么玩？

他认为，类似于PASCAL VOC竞赛, ImageNet已经完成使命，它的单标签识别的核心问题已不再代表未来的主要发展方向，确实可以终结了。而计算机视觉的未来属于多标签、像素级、语义级分析。

他不认为Web Vision是最终取代ImageNet的数据集，他认为需要一个像素级、多标签的数据集才可能引领计算机视觉进入下一个时代。如果像素级分类做好了，无论做任何类型图像理解和语义理解的问题都好办了。

虽然现在新的数据集有做语义级别分析或者局部关联分析的，但这些数据库存在内在的局限性。建立一个像素级和多标签的数据集挑战非常大，他希望在合适的时间点，由大公司或NPO甚至国家出来做这样的事情。

对于摘得最后一届ImageNet皇冠的DPN模型，颜水成和他的学生们还从本质上探讨了ResNet、DenseNet和DPN之间关系。他认为虽然ResNet可以解释成是DenseNet的一个特例，而DPN也是两者思想的融合，但是由于两者是错位对接的，DPN无法再解释成DenseNet的一种特列，而是一种新的网络结构。

对于各种图像竞赛，他的观点是：比赛的名次本身并不重要，重要是“是否给整个society带来有价值的insight”。“雕虫小技”很容易被人遗忘，”群殴”式的模型堆砌不会被人敬佩，”暗杀”式的不公布算法细节的刷榜很难被铭记。比赛给各种算法提供了一个相对公平的“比武场”，这是有助于技术创新的。基础模型和标准组件是两种常见的为整个society贡献Insight的方式。

对于最近火热的边缘计算，他认为大家都希望AI最终能落地，2C的量远大于2B的量，最大的量在手机等终端设备上。所以边缘计算是人工智能发展需求决定的一个大趋势。技术上看，目前有三种方式降低边缘计算量：第一种是内功—就是特别好的网络结构；第二种是武器—低精度表示的方法；第三种是暗器—巧妙用低功耗的网络先确定那部分不需要计算的网络。三种方法都是为了减少计算量以适应边缘计算，三种相辅相成。

最后他讲述了自己在计算机视觉领域的整整16年，他认为，算法更新了很多代，但是研究的很多问题本身没变。颜水成师承计算机视觉大师Thomas S. Huang、张宏江、汤晓鸥、李子青等，本在学术界风生水起，却因为老周对智能硬件的热情而跨入工业界，经历了学术界到工业界的巨大变化。他更懂得如何发挥学生各自特长，带出了很多优秀的学生，谁适合工业界谁又适合学术界，他都加以指引。虽然他是一个很push的老板，但也被学生亲切地称为“水哥”。

以下是颜水成采访实录，由编辑整理，有删减和调整。

ImageNet确实可以终结了，计算机视觉的未来属于多标签、像素级、语义级

“图像的竞赛还是像素级别的分类更好。如果像素级分割做好了，无论做任何类型图像理解或语义理解的问题都好办了。”

新智元：今年之后ImageNet的ILSVRC挑战赛“退出江湖”，是不是表明分类检测任务已经取得相对完善的表现？

颜水成：计算机视觉竞赛有很长的历史，PASCAL VOC进行了八年，ImageNet也是八年。每个比赛都承载了大家对技术发展的期望，同时大家也会逐渐发现这些数据库的局限性。

2005-2012年，PASCAL VOC非常火，但是只有二十类，2010年开始的ImageNet有一千类，于是研究者逐步转向ImageNet。

ImageNet数据库现在最大的挑战是，在分类中每一个图像中只标注了一个主要的物体，所以ImageNet主要是做单个物体的分类和定位。这不符合现实世界图像的分布特点，存在局限性，这是ImageNet结束比赛的一个重要原因。但是ILSVRC比赛里面的物体检测这个任务，本身还没有终结，后面还会也应该继续下去。

我们需要像某些多标签的多媒体数据集那样的数据集，更符合真实图像的情况。

新智元：多label的数据集，现在有哪些？

颜水成：比较大的有来自新加坡国立大学的NUS-WIDE。但是label也不多，只有81个。

新智元：ImageNet为什么是单label？

颜水成：工作量的问题，多label意味着每个图像对多个label要做校验。但是单label只需要判断yes or no。

假如是个一千个label的多标签数据集，你的校验就是一千倍，否则依然会存在错误。

新智元：未来计算机视觉的竞赛还应该往哪方面发展呢？

颜水成：在我个人看来，图像的竞赛还是像素级别的分类更好。如果图像分割做好了，无论做任何类型图像理解或语义理解的问题都好办了。

ImageNet去年有Scene Parsing任务，但遗憾的是今年没继续。如果将来把图像分割作为核心任务，再做任何其它任务就好办多了。

真正好的分割是全景的分割。所谓全景分割，就是对每一个像素都有一个标注。这样比ImageNet检测和分类的任务难很多，标注量也非常大。

希望在合适的时间点有大公司或NPO来做这样的事情。现在有新的数据集做语义级别分析或者局部关联分析，但这些数据库存在内在的局限性，最终还是要做像素级别。

DPN摘下最后的“皇冠”，本质是ResNet和DenseNet思想的结合

“ResNet可以解释成是DenseNet的一个特例。但是DPN还暂时无法被解释成是DenseNet的特例。原因是...”

新智元：本届比赛中，你所在团队使用了DPN技术，这种技术除了用于像ImageNet中“图像识别”、“图像检测”和“图像分割”这三大任务，是否适合用其他任务或者应用上？

颜水成：计算机视觉领域的基础模型至关重要，如AlexNet, NIN, GoogleNet, VGG, ResNet, 以及这次的DPN。不仅仅限于这三大任务，只要计算机视觉相关的并且用深度学习的都可受益于这些基础模型。

新智元：论文中说ResNet是DenseNet的一个特例，而DPN结合了两种模型的思想，DPN是否也是一种DenseNet的特例呢？

颜水成：这个问题非常有意思。ResNet可解释成是DenseNet的一个特例。但是DPN还暂时无法被解释成是DenseNet的特例。原因是，把ResNet当成DenseNet特例的时候，两者是有错位的。

ResNet的block和DenseNet的block不是对齐的，而是错位对应的。把ResNet和DenseNet融合在一起的话，它们错位了。我和CHEN Yunpeng都仔细分析过，无法把新的DPN再解释成是原来的DenseNet的结构。

其内在的合理性我们用三角形来做个类比，DenseNet可以看成等边直角三角形，ResNet是其中一个方向的特例。如果合适地拼接，可以组成另一个等边三角形，但也可能拼接成一个正方形。DPN属于后者，由于错位拼接，最后的模型不再是DenseNet。

下一个ImageNet：根本上还是需要有一个像素级标注的数据集

“涉及到语义，ground-truth往往不reliable，很多标注达不成共识，这让研究的难度增加很多。”

新智元：ImageNet已经告别，现在涌现了 Visual Genome、Web Vision这样的结合语义和知识的图像数据集，您认为是否意味着语义和知识的理解是下一个趋势？视觉和自然语言处理是否会殊途同归？

颜水成：首先，涉及到语义的时候，难度比ImageNet的分类任务大很多。现在做语义级别的理解，一种是探索图像块之间的语义关联，还有一种是用一段话来描述图像。这时候不再是一个个标签，而是词的序列组合。这个空间和图像空间两者融合在一起，其内在维度就比以前增加了很多。维度的增加，意味着训练所需要的数据量就更多。

做图像理解和语义理解的期望是不一样的。ImageNet分类的问题，是给图像一个label或者一个框，只要这一千个标签分类做的还不错，大家就可以接受。涉及到语义层面，即使像Image Caption 这样的任务，人们都对你最后说出来这句话有着非常高的期望，人们期望这些话是有价值的，不是枯燥无意义的，例如“一个棵树旁边有一朵花”这种话对普通人来说没有太大价值。

总的来说，当涉及语义理解，问题就会变得更加复杂，需要的数据量也比以前大很多。但是输出的结果却往往价值非常有限。

新智元：现在有没有好一点的方法做像素级标注数据？

颜水成：比较好的方式是有一些数据标注公司和互联网巨头甚至国家参与进来。例如专项资金的投入，让巨头出数据并做好数据的清洗，而国家出钱让社会上专门的标注公司一起把这件事情做好。就国家的新一代人工智能发展规划中提到：把数据作为一种基础平台建设。

新智元：技术上有什么算法可以辅助生成这样的数据？

颜水成：这是可能的。比如先用已有的数据用生成模型标注数据，然后再用人工微调。这样可以很好的减少数据标注所用的时间，达到智能标注的效果。

新智元：对于语义相关数据集，标注的难度是什么？

颜水成：比方说，用一句话描述图像，每个人的描述可能有比较大的差别。这样ground truth就没有那么reliable，很多标注达不成共识。这样带来的直接问题是算法结果好坏的评估就不再绝对可信了。

新智元：既然都是仁者见仁的，那语义级识别有什么应用呢？

颜水成：应用太多了。以网络速度的发展为基础，以后网络数据中会有很多实时视频流。但是人已经无法标注了，产生图像和视频的速度太快了。这时候就需要很多计算机视觉的算法，能对图像/视频产生有意义的文本描述，人去搜索图像以及推荐给合适的用户的时候就有价值了。

新智元：您认为谁能替代ImageNet？

颜水成：很多人的看法可能是Web Vision。我个人的看法是，根本上还是需要有一个像素级标注的数据集，在这个基础上各种图像理解和语义理解的问题就好办了。

竞赛就是比武场：如果你能贡献Insight，为什么不“刷榜”？

“比赛名次本身不重要，重要的是能否给整个society带来有价值的insight”

新智元：有人在知乎评论，近几年的ImageNet获奖队伍都是用的深度学习，导致比赛的新意下降，您怎么看待这一说法？据说您的团队在五年内曾7次问鼎PASCAL VOC 和ILSVRC的世界冠军和亚军奖项。同时有一些媒体提到这类比赛的时候就说大家是刷分，您怎么看刷分说法？

颜水成：比赛名次本身不重要，重要的是能否给整个society带来有价值的insight。雕虫小技”很容易被人遗忘，”群殴”式的模型堆砌不会被人敬佩，”暗杀”式的不公布算法细节的刷榜很难被铭记。比赛给各种算法提供了一个相对公平的“比武场”，这是有助于技术创新的。我个人觉得至少有两类成果可以被认为是有Insight的，一类是基础模型，比如AlexNet, GoogleNet, VGG, ResNet以及今年的DPN, 另一类是深度学习的标准模块，比如1x1 卷积和 Batch-normalization。

如果你在刷榜的同时还为society贡献了你的insight，那么为什么不刷？

新智元：您怎么看待比赛给原创和创新带来什么好和坏的力量？

颜水成：我认为对创新还是非常有价值的。任何一个领域，原创和创新需要一个平台去展现去证明，就像比武一样，需要一个正式的、外界所认可的场所，如果在这个场所做的比较好，那么就能很好的证明你的能力。算法也是一样，如果各自收集各自的数据做测试，就没有可比性了。现在有一个固定数据集，别人已经做了实现了，我只需要把自己的实现做出来，就可以证明有效性了，省去了研究者重现别人算法的困难。所以这种竞赛对于创新和原创的速度起到了促进作用。

边缘计算模型的“内功”、“兵器”和“暗器”

“网络好...这是硬功夫，是内功；低精度表示...就像武器；巧妙去掉不需要计算的部分网络：就像暗器。这三种方法是相辅相成的”

新智元：DPN是高性能、低资源的一种模型，是否适用于移动终端？

颜水成：任何一种网络结构都可以用在移动端，只不过会针对移动端特点对网络结构进行特殊的设计，例如ResNet，AlexNet、GoogleNet，我们都在移动端用过。

新智元：DPN的计算量降低了很多，是否因为这种网络拓扑结构更好？本质上，改善性能或者减少资源消耗是否主要在于优化网络的拓扑结构？

颜水成：在移动端，加速有很多方式，我个人偏向总结成三种：

1. 网络好：设计一种结构好的网络，少量参数取得很好的结果，这是硬功夫，是内功；

2. 低精度表示：把数据从32/64位表示降到更少位的表示，就像武器；

3. 巧妙去掉不需要计算的部分网络：就像暗器。

就像我们的论文《More is Less: A More Complicated Network with Less Inference Complexity》里面的工作，专门为移动端做的设计。我们把网络结构变得更复杂，用low cost的网络去决定哪些位置的卷积不用算，降低了线上推理时候所需要的计算量。

这三种方法是相辅相成的，一种可以帮助另外两种，大家从不同维度降低计算量。

新智元：最近边缘计算比较火热，您怎么看待AI模型往移动端发展，这是否是一个真实的趋势？

颜水成：趋势完全是由人工智能发展的需要决定的。大家都希望最终能落地，一种是2B，一种是2C，2B的量暂时不是特别大。

你想每年的移动终端例如手机的量有多少，要人工智能落地的话，最好在手机上。这样就要满足计算资源的限制要求，充分利用硬件计算的特点，为专门的硬件做定制化加速。

计算机视觉的十几载，研究的问题没变太多

“新加坡国立大学候任校长陈永财曾问我在工业界怎么样，我的回答是：tiring but exciting”

新智元：您是什么时候开始进入计算机视觉领域？可以谈谈这些年研究CV，您的最大体会嘛？

颜水成：我做计算机视觉是从2001年开始，十六年整了。我的第一位导师是李子青教授，后来跟张宏江博士做计算机视觉和多媒体，在微软亚洲研究院待了差不多三年半。

新智元：十六年最大的体会是什么？

其实计算机视觉研究的问题变化不大，比如人脸分析的所有问题，十六年前都在研究了。但是方法起码经历了三代发展：最早是做子空间分析和流行分析，那个时间段出现了很多子空间学习算法，例如很多PCA+LDA的变种。第二代就是由马毅教授引领的，稀疏和low-rank。最后就是深度学习的出现，把整个领域带到了另一个新的level。

新智元：您入职奇虎360已经将近两年了，你对这段经历有什么感受？有没有达到您当初进入产业界的目标或者是否符合您的预期？

颜水成：我当年加入360最吸引我的是智能硬件这一块，软硬件结合是计算机视觉的一个大方向。

企业界和学术界的差异很大，我也花了不少时间来适应。新加坡国立大学候任校长陈永财曾问我在工业界怎么样，我的回答是：tiring but exciting。过去的这段时间大部分都是九点半之后才回家，一周大多工作六天。

特别前沿的至少半年以后才会考虑落地的研究领域我们会跟学术界合作，通过联合实验室做研究。例如跟新加坡国立大学Feng Jiashi教授组立联合实验室，在企业研究院的团队主要关注业务线上具体的需求，用AI给现有业务赋能，同时跟业务部门一起孵化新的AI产品。

新智元：我们了解到您有很多优秀的学生，可以介绍一下他们嘛？有哪些您认为特别优秀的？

颜水成：作为教授对招进来的学生都是喜欢的，经过几年学习之后，每个人都有特别的地方。有些在工业界非常合适，有些则在学术界更合适。我会给他们做明确的指引。如果说谁最优秀的话，分享一个小故事。

我的博士后导师Thomas S. Huang去年八十大寿，很多学生去祝贺，他提前告诉大家，说会在晚宴的时候揭晓谁是他最优秀的学生。非常吊胃口。

最后晚宴上他非常自豪地宣布，”all my students are my best students”。

我深以为然。我也很幸运自己的学生都非常优秀。我带了一批学生到工业界，他们都曾在各种视觉竞赛中拿到冠军/最好结果，同时也有不少学生和博士后在美国、新加坡、中国任职(助理/副)教授。从2008开始，前后已有超过100人曾或正在新加坡国立大学的Learning & Vision组学习。

老师和学生的关系是相对简单的，我在新加坡国立大学的时候，一直强调slogan: Let’s work hard together! 我一直相信，等自己的学生离开研究组时，如果手里有一份干货满满的CV, 绝对不会责怪老板的Push。

文章转自新智元公众号，原文链接

【ImageNet最后的冠军】颜水成：像素级标注数据集将引领计算机视觉下一个时代

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件