李飞飞：物体识别之后，计算机视觉的进展、目标和前景何在？-阿里云开发者社区

9 月 26 日，机器人领域的顶级学术会议 IROS 2017 进入第二日。上午，著名华人计算机视觉专家、斯坦福副教授李飞飞，在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告。

在报告中李飞飞与大家讨论了计算机视觉的目标：丰富场景理解，以及计算机视觉与语言结合和任务驱动的计算机视觉的进展和前景。场景理解和与语言结合的计算机视觉进一步搭起了人类和计算机之间沟通的桥梁，任务驱动的计算机视觉也会在机器人领域大放异彩。李飞飞介绍的自己团队工作也丰富多样、令人振奋。

2015年，李飞飞也在同一个会场面向着大海和听众进行过一次 TED 演讲

物体识别之后：丰富场景识别

在物体识别问题已经很大程度上解决以后，我们的下一个目标是走出物体本身，关注更为广泛的对象之间的关系、语言等等。

在Visual Genome数据集之后，我们做的另一项研究是重新认识场景识别。

场景识别单独来看是一项简单的任务，在谷歌里搜索“穿西装的男人”或者“可爱的小狗”，都能直接得到理想的结果。但是当你搜索“穿西装的男人抱着可爱的小狗”的时候，就得不到什么好结果。它的表现在这里就变得糟糕了，这种物体间的关系是一件很难处理的事情。

比如只关注了“长椅”和“人”的物体识别，就得不到“人坐在长椅上”的关系；即便训练网络识别“坐着的人”，也无法保证看清全局。我们有个想法是，把物体之外、场景之内的关系全都包含进来，然后再想办法提取精确的关系。

如果我们有一张场景图（graph），其中包含了场景内各种复杂的语义信息，那我们的场景识别就能做得好得多。其中的细节可能难以全部用一个长句子描述，但是把一个长句子变成一个场景图之后，我们就可以用图相关的方法把它和图像做对比；场景图也可以编码为数据库的一部分，从数据库的角度进行查询。

我们已经用场景图匹配技术在包含了许多语义信息的场景里得到了许多不错的量化结果，不过在座的各位可能边听就边觉得，这些场景图是谁来定义的呢？在Visual Genome数据集中，场景图都是人工定义的，里面的实体、结构、实体间的关系和到图像的匹配都是我们人工完成的，过程挺痛苦的，我们也不希望以后还要对每一个场景都做这样的工作。所以在这项工作之后，我们很可能会把注意力转向自动场景图生成。

比如这项我和我的学生们共同完成的CVPR2017论文就是一个自动生成场景图的方案，对于一张输入图像，我们首先得到物体识别的备选结果，然后用图推理算法得到实体和实体之间的关系等等；这个过程都是自动完成的。

这里涉及到了一些迭代信息传递算法，我先不详细解释了。但这个结果体现出的是，我们的模型的工作方式和人的做法已经有不少相似之处了。

得到这样的结果我们非常开心，这代表着一组全新的可能性来到了我们面前。借助场景图，我们可以做信息提取、可以做关系预测、可以理解对应关系等等。

当然了论文发表前我们也做了好看的数据出来。

我们相信Visual Genome数据集也能够帮助很多的研究人员在研究关系和信息提取的算法和模型实验中施展拳脚。

场景识别之后还有什么？

刚才说过了物体识别、关系预测这两项场景理解难题之后，Jeremy 提到的最后一件事情就是，“场景中的gist的根本是三维空间中在物体间和物体表面上以一定形式扩散、重复出现的视觉元素”。不过由于我关注的并不是三维场景理解，我就只是简单介绍一下斯坦福的同事们近期的研究成果。

左侧是从单张图片推测三维场景的布局，展现出其中物体的三维几何特征；右侧是空间三维结构的语意分割。除了斯坦福的这两项之外，三维场景理解还有很多的研究成果，包括使用图片的和点云的。我也觉得很兴奋，将来也不断地会有新东西来到我们面前，尤其是在机器人领域会非常有用。

这样，我们就基本覆盖全了场景的gist，就是看到场景的前150毫秒中发生的事情。视觉智慧的研究当然并不会局限于这150毫秒，之后要考虑的、我们也在期待的还有两项任务。

我的研究兴趣里，除了计算机科学和人工智能之外，认知神经科学也占了相当的位置。所以我想回过头去看看我在加州理工学院读博士的时候做的一个实验，我们就让人们观察一张照片，然后让他们尽可能地说出自己在照片中看到的东西。当时做实验的时候，我们在受试者面前的屏幕上快速闪过一张照片，然后用一个别的图像、墙纸一样的图像盖住它，它的作用是把他们视网膜暂留的信息清除掉。

接下来我们就让他们尽可能多地写下自己看到的东西。从结果上看，有的照片好像比较容易，但是其实只是因为我们选择了不同长短的展示时间，最短的照片只显示了27毫秒，这已经达到了当时显示器的显示速度上限；有些照片显示了0.5秒的时间，对人类视觉理解来说可算是绰绰有余了。

我们得到的结果大概是这样的，对于这张照片，时间很短的时候看清的内容也很有限，500毫秒的时候他们就能写下很长一段。进化给了我们这样的能力，只看到一张图片就可以讲出一个很长的故事。

计算机视觉+语言

我展示这个实验想说的是，在过去的3年里，CV领域的研究人员们就在研究如何把图像中的信息变成故事。

他们首先研究了图像说明，比如借助CNN把图像中的内容表示到特征空间，然后用LSTM这样的RNN生成一系列文字。这类工作在2015年左右有很多成果，从此之后我们就可以让计算机给几乎任何东西配上一个句子。

比如这两个例子，“一位穿着橙色马甲的工人正在铺路”和“穿着蓝色衬衫的男人正在弹吉他”。这让我想起来，2015年的时候我就是在这同一个房间里做过演讲。两年过去了，我们的算法也已经不是最先进的了，不过那时候我们的研究确实是是图像说明这个领域的开拓性工作之一。

我们沿着这个方向继续做研究，迎来的下一个成果是稠密说明，就是在一幅图片中有很多个区域都会分配注意力，这样我们有可以有很多个不同的句子描述不同的区域，而不仅仅是用一个句子描述整个场景。在这里就用到了CNN模型和逻辑区域检测模型的结合，再加上一个语言模型，这样我们就可以对场景做稠密的标注。

比如这张图里就可以生成，“有两个人坐在椅子上”、“有一头大象”、“有一棵树”等等；另一张我的学生们的室内照片也标出了丰富的内容。

我们的稠密标注系统也比当时其它基于滑动窗口的方法表现好得多。

在最近的CVPR2017的研究中，我们让表现迈上了一个新的台阶，不只是简单的说明句子，还要生成文字段落，把它们以具有空间意义的方式连接起来。

这样我们就可以写出“一只长颈鹿站在树边，在它的右边有一个有叶子的杆子，在篱笆的后面有一个黑色和白色的砖垒起来的建筑”，等等。虽然里面有错误，而且也远比不上莎士比亚的作品，但我们已经迈出了视觉和语言结合的第一步。

而且，视觉和语言的结合并没有停留在静止的图像上，刚才的只是我们的最新成果之一。在另外的研究中，我们把视频和语言结合起来，比如这个CVPR2017的研究，我们可以对一个说明性视频中不同的部分做联合推理、整理出文本结构。这里的难点是解析文本中的实体，比如第一步是“搅拌蔬菜”，然后“拿出混合物”。如果算法能够解析出“混合物”指的是前一步里混合的蔬菜，那就棒极了。我的学生和博士后们也都觉得这是让机器人进行学习的很重要的一步。