国际计算机视觉与模式识别会议(CVPR)是IEEE一年一度的学术性会议,在世界范围内具有顶级的权威性与影响力,同时也是圈内学者关注和交流的重要场所。
素有计算机视觉领域“奥斯卡”之称的CVPR有着相当严苛的录用标准。据统计,会议往年的平均录取率不超过30%,而根据CVPR2020官方公布论文收录结果,本届CPVR共接收6656篇论文,中选1470篇,“中标率”只有22%,堪称十年来最难入选的一届。
然而,在论文接收率下降的同时,中国科技企业被录取论文数量却不降反增,百度作为AI代表企业今年中选22篇,比去年的17篇增加了5篇。在自动驾驶领域,与安全息息相关的Apollo车辆识别全新数据合成方法研究便位列其中。
近年来,CVPR蓬勃发展的重要原因,很大一部分是源自于中国科技公司的贡献。本次会议中,百度入选的22篇论文,全面涵盖视觉领域下的自动驾驶中的车辆检测、人脸检测&识别、视频理解&分析、图像超分辨及场景实例级分割等众多热门子领域,也向国际领域展示了中国视觉技术水平的深厚积累。
除了多篇论文被收录,百度还将在本届CVPR中联合悉尼科技大学、南开大学等单位共同主办弱监督学习研讨会(The 2nd Workshop on Learning from Imperfect Data),以及与中科院等单位共同主办活体检测研讨会(The 4th Workshop on Media Forensics),与更多顶尖学者进行深入交流。
如下为百度入选CVPR 2020的部分论文展示:
车辆识别
3D Part Guided Image Editing for Fine-grained Object Understanding
在自动驾驶场景中,准确地感知“特殊”状态的车辆对行驶安全至关重要(例如:车门打开可能有乘客下车,尾灯闪烁意味着即将变道)。针对此难题,本文提出了一个全新的数据合成(增强)方法,即通过对齐的部件级三维模型对二维图像中的车辆进行编辑,自动生成大量“特殊”状态(例如:开启的车门、后备箱、引擎盖,闪烁的前照灯、尾灯)的车辆图像与语义标注结果。针对生成的训练数据,本文设计了一个双路骨干网络使得模型可以泛化到真实的测试数据,与传统的模型渲染方法相比,本方法平衡了域差异的问题并且更加轻量便捷。
为了验证方法的有效性,本文构建了CUS (Cars in Uncommon States) 数据集,标注了约1400张真实街景下车辆处于特殊状态的图像。实验结果表明:本文提出的方法可以有效地对“特殊”状态的车辆进行检测、整车的实例级分割、部件的语义分割以及状态描述,对自动驾驶的安全决策有着重要的意义。
目标前侧&跟踪
Associate-3Ddet: Perceptual-to-Conceptual association for 3D Point Cloud Object Detection
目标检测技术是机器人和自动驾驶领域中最重要的模式识别任务之一。本文提出了一种领域自适应的方法来增强稀疏点云特征的鲁棒性。更具体地说,是将来自真实场景的特征(感知域特征)和从包含丰富细节信息的完整虚拟点云特征(概念域特征)进行了关联。这种域适应特征关联的方法实际上是模拟在人脑进行物体感知时的联想关联功能。这种三维目标检测算法在训练过程中增强了特征提取能力,在推理阶段不需要引入任何额外的组件,使得该框架易于集成到各种三维目标检测算法中。
Neural Message Passing and Attentive Spatiotemporal Transformer for Point Cloud Based 3D Video Object Detection
基于单帧点云的3D目标检测器通常无法应对目标遮挡、远距离和非均匀采样等情况,而点云视频(由多个点云帧组成)通常包含丰富的时空信息,可以改善上述情况下的检测效果,因此本文提出一个端到端的在线3D点云视频目标检测器。论文中的Pillar Message Passing Network(PMP Net),可将点云俯视图下的非空栅格编码为图节点,并在节点间进行信息传递以动态改善节点感受野,PMP Net可以有效结合图空间的非欧特性和CNN的欧式特性;在时空特征聚合模块中,还提出空间和时间注意力机制来强化原始的Conv-GRU层,空间注意力机制对new memory进行前景增强和背景抑制,时间注意力机制用以对齐相邻帧中的动态前景目标。该3D点云视频目标检测器在nuScenes大型基准集上达到了领先效果。
A Unified Object Motionand Association Model for Efficient Online Multi-object Tracking
利用单目标跟踪器(SOT)作为运动预测模型执行在线多目标跟踪(MOT)是当前的流行方法,但是这类方法通常需要额外设计一个复杂的相似度估计模型来解决相似目标干扰和密集遮挡等问题。本文利用多任务学习策略,将运动预测和相似度估计到一个模型中。值得注意的是,该模型还设计了一个三元组网络,可同时进行SOT训练、目标ID分类和排序,网络输出的具有判别力的特征使得模型可以更准确地定位、识别目标和进行多目标数据关联;此外,论文中提出了一个任务专属注意力模块用于强调特征的不同上下文区域,进一步强化特征以适用于SOT和相似度估计任务。该方法最终得到一个低存储(30M)和高效率(5FPS)的在线MOT模型,并在MOT2016和MOT2017标准测试集上取得了领先效果。
人脸检测&识别
HAMBox: Delving into Online High-quality Anchors for Detecting Outer Faces
近期,关于人脸检测器利用锚点构建一个结合分类和坐标框回归的多任务学习问题,有效的锚点设计和锚点匹配策略使得人脸检测器能够在大姿态和尺度变化下精准定位人脸。本次论文中,百度提出了一种在线高质量锚点挖掘策略HAMBox, 它可以使得异常人脸(outer faces)被补偿高质量的锚点。HAMBox方法可以成为一种基于锚点的单步骤人脸检测器的通用优化方案。该方案在WIDER FACE、FDDB、AFW和PASCAL Face多个数据集上的实验表明了其优越性,同时在2019年WIDER Face and Pedestrian Challenge上,以mAP 57.13%获得冠军,享誉国际。
FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction