【OpenVI—论文解读系列】ICLR 2023 | 开源轻量人脸检测DamoFD

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: 本文介绍我们被机器学习顶级国际会议ICLR 2023接收的论文 “DamoFD: Digging into Backbone Design on Face Detection"论文链接:https://openreview.net/pdf?id=NkJOhtNKX91开源代码:https://github.com/ly19965/EasyFace/tree/master/face_project/face_detection/DamoFD

一、背景

1. 人脸检测问题定义

      人脸检测算法是在一幅图片或者视频序列中检测出来人脸的位置,给出人脸的具体坐标,一般是矩形坐标,它是人脸关键点、属性、编辑、风格化、识别等模块的基础。学术界用来衡量人脸检测器性能的benchmark是[WiderFace](WIDER FACE: A Face Detection Benchmark),该数据集主要明确了人脸检测器面对的一些挑战,包括scale,pose,occlusion等。本文的研究问题是如何自动搜索轻量级人脸检测器的backbone?

image.png

图片来自Wider Face 官网


2. 轻量人脸检测器发展

Manual 轻量级人脸检测器设计: 早期的轻量级人脸检测器(FaceBoxes & BlazeFace)均采用Single-stage目标检测器的结构(SSD),并替换为自己手工设计的backbone模块(e.g., Faceboxes引入了Crelu,BlazeFace 引入了DW Conv )。这些方法的共同弊端是无法随着算力约束的变化而自动调整人脸检测器结构,限制了其应用场景。

2.png图片来自FaceBoxes 论文

Nas-Based 轻量级人脸检测器: 随着Neural Architecture Search(NAS)技术的兴起,研究人员开始利用Nas来自动化设计人脸检测器的结构, e.g., SPNas in BFBox, DARTS in ASFD,RegNet in SCRFD。SCRFD借鉴了RegNet的思想确定了检测器的搜索空间,并打造了sota性能的轻量级人脸检测器。下图为SCRFD得到的在backbone上的最优算力分配区间

3.png

图片来自SCRFD论文

二、方法

1. Motivation

      目前的Nas方法主要由两个模块组成,网络生成器和精度预测器。其中网络生成器用于生成候选的backbone结构,精度预测器用来对采样的backbone结构预测精度。由于检测和分类的任务目标不一致,前者更重视backbone stage-level (c2-c5)的表征,而后者更重视high-level(c5)的表征,这就导致了用于分类任务上的精度预测器擅长预测high-level的表征能力而无法预测stage-level的表征能力。因此,在人脸检测任务上,我们需要一个可以预测stage-level表征能力的精度预测器来更好的搜索face detection-friendly backbone。


2. Preliminaries

     首先我们介绍下与我们方法相关的背景知识:

4.png5.png


3. Method

     针对如何设计可以预测stage-level表征能力的精度预测器,我们从刻画network expressivity的角度出发,创新性地提出了SAR-score来无偏的刻画stage-wise network expressivity,同时基于数据集gt的先验分布,来确定不同stage的重要性,进一步提出了DDSAR-score 来刻画detection backbone的精度。


3.1 Adopt Theorem2 to charaterize stage-level network expressivity

1.png

3.2 Two issues ocuur

7.png8.png9.png

3.3 Stage-aware Expressivity Score

10.png

设计准则:
11.png

111.png

3.4 Filter Sensitivity Score

12.png

3.5 SAR-Score and DDSAR-Score

13.png

3.6 Serch Space and Evolutionary Architecture Search

14.png

15.png

三、结果

16.png

四、展望与应用

  • 减少对超参敏感性:我们在实验的过程中发现DDSAR搜索轻量级(500m)的检测结构时对超参不太敏感,很快就会得到不错的结构,但是搜2.5G, 10G和34G Flops下的检测结构时对超参比较敏感,需要对\alpha以及搜索空间进行调整。可能原因是我们的filter sensitity score 为了加速计算过程,只能近似反应对filter size的敏感性,后续可以从其他角度优化下上述的暴力枚举过程。
  • 增强方法在不同检测任务上的普适性: 我们的DDSAR-score是用来刻画检测器表达能力的score,理论上应该在不同检测任务上都应该做的很好。我们目前只考虑了数据集gt的分布,但是不同检测数据集还有数据质量,数据集规模的差异,可以围绕data-centric的思想来对数据集的质量, 数据增强等维度来进一步建立数据集和精度预测器之间的关系,从而实现在不同检测任务上都很有效。
  • 更精准的计算网络linear region的数量: 通过linear region的数量来刻画网络的表达能力在ML领域发表了很多paper,可以尝试下更精准的bound或者exact number fo linear region。

五、更多体验

想体验调用稳定、效果更好的API,详情见视觉开放智能平台(https://vision.aliyun.com/

 


相关文章
|
2月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
2月前
|
机器学习/深度学习 人工智能 测试技术
AI计算机视觉笔记二十五:ResNet50训练部署教程
该项目旨在训练ResNet50模型并将其部署到RK3568开发板上。首先介绍了ResNet50网络,该网络由何恺明等人于2015年提出,解决了传统卷积神经网络中的退化问题。项目使用车辆分类数据集进行训练,并提供了数据集下载链接。环境搭建部分详细描述了虚拟环境的创建和所需库的安装。训练过程中,通过`train.py`脚本进行了15轮训练,并可视化了训练和测试结果。最后,项目提供了将模型转换为ONNX和PT格式的方法,以便在RK3568上部署。
|
6月前
|
人工智能 安全 测试技术
微软开源4.2B参数多模态SLM模型Phi-3-vision,魔搭社区推理、微调实战教程来啦!
在 Microsoft Build 2024 上,微软持续开源了 Phi-3 系列的新模型们。包括 Phi-3-vision,这是一种将语言和视觉功能结合在一起的多模态模型。
|
机器学习/深度学习 人工智能 算法
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 10 日论文合集)(下)
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 10 日论文合集)(下)
|
机器学习/深度学习 传感器 人工智能
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(下)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(下)
|
机器学习/深度学习 编解码 人工智能
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(上)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(上)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 8 日论文合集)(上)
|
机器学习/深度学习 运维 自动驾驶
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 10 日论文合集)(上)
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 10 日论文合集)(上)
|
机器学习/深度学习 算法 数据挖掘
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)(二)(上)
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)(二)(上)
|
机器学习/深度学习 人工智能 算法
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)(二)(下)
【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)(二)(下)
|
机器学习/深度学习 编解码 测试技术
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(上)
【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(上)

热门文章

最新文章