在计算机视觉领域,骨干网络一直是特征提取的重要部件。从 AlexNet 到 ResNet,卷积网络 CNN 在很长一段时间内一直是视觉任务的标配。近年来,基于注意力机制的 Transformer 和以全连接层为主的 MLP 网络也开始在计算机视觉领域崭露头角。与现有主流 CNN 模型相比,基于 Transformer 或 MLP 的模型在视觉任务上也显示出了良好的性能。
直到现在,关于谁是更好的视觉骨干网络还是一个仍在探索和颇具争议的课题。传统的卷积网络将图像视作一个矩阵或网格,通过滑动窗口对邻域像素点或特征点进行聚合;视觉 Transformer 或 MLP 则是输入图片切分为若干个图像块,形成一个序列,用注意力机制或全连接层处理序列关系。网格或序列表示方法,对于图像来说显得不够灵活。比如一个人往往由头部、四肢和躯干构成,这些部位之间有一定连接关系,是一种非规则化的会变化的模式。
针对这些情况,华为诺亚方舟实验室联合中国科学院软件研究所、北大等机构的研究者在论文《Vision GNN: An Image is Worth Graph of Nodes》中,提出了一种新型视觉图神经网络(Vision GNN),它能够更灵活地对图像表征进行建模,在图像识别和目标检测等通用视觉任务取得了不错的效果。
分享主题:Vision GNN: An Image is Worth Graph of Nodes
分享嘉宾:韩凯,华为诺亚方舟实验室研究员,主要研究方向为深度学习和计算机视觉。他在 NeurIPS/CVPR/TPAMI 等顶会顶刊发表 20 余篇论文,多项研究成果应用于华为产品线。他的谷歌学术引用 2000+,其中 GhostNet 和 TNT 入选 PaperDigest Most Influential Papers 榜单。
分享摘要:华为诺亚实验室的研究员联合高校发现图神经网络(GNN)也能做视觉骨干网络。将图像表示为图结构,通过简洁高效的适配,提出一种新型视觉网络架构 ViG,表现优于传统的卷积网络和 Transformer。在 ImageNet 图像识别任务,ViG 在相似计算量情况下 Top-1 正确率达 82.1%,高于 ResNet 和 Swin Transformer。