一览端到端人脸识别最新进展,上大&京东AI研究院综述被ACM旗舰期刊接收

简介: 一览端到端人脸识别最新进展,上大&京东AI研究院综述被ACM旗舰期刊接收
人脸识别是计算机视觉(CV)领域中最热门和悠久的研究课题之一。本篇综述全面地回顾了端到端深度学习人脸识别系统的三个组成要素,包括人脸检测、人脸对齐和人脸表征。从最新的算法设计,评估指标,数据集,方法性能比较,现有的挑战和未来发展方向等方面展开介绍,同时讨论了不同要素对后续环节和整体识别系统的影响。通过该综述,作者期望读者能够认识到各个要素中值得进一步探索的方法,以及如何从头开始选择合适的方法来建立一套先进的端到端人脸识别系统。该综述已被 ACM 旗舰期刊 Computing Surveys(IF 10.282)接收。


端到端深度人脸识别系统由三个关键要素构成:人脸检测(face detection)、人脸对齐(face alignment)和人脸表征(face representation)。其中,人脸检测的作用是定位静止图像或视频帧中的人脸位置。然后,人脸对齐将人脸校准到一个规范的视角,并将人脸图像裁剪到一个标准化像素大小。最后,在人脸表征阶段,从对齐后的图像中提取具有鉴别性的特征用于识别。

在实际应用中,端到端人脸识别系统的性能表现同时取决于上述三种组成要素,任何一个环节出现短板,都会对端到端系统的识别性能造成不良影响,成为人脸识别系统的瓶颈。为了建立一套先进的端到端人脸识别系统,因此有必要理解每个要素对系统整体的影响,以及各个要素之间的内在联系。


论文地址:https://arxiv.org/pdf/2009.13290.pdf

因此,来自上海大学、京东 AI 研究院和瑞尔森大学的研究者联合撰写的这篇综述具有以下几项主要贡献:

  • 系统地调研并回顾了端到端深度人脸识别三个组成要素的最近进展;
  • 从多个方面介绍了这三个组成要素: 算法设计、评估指标、数据集和性能比较。并且指出了各个要素对其后续环节和整体系统的影响;
  • 分析了每个要素及其子类别现有的挑战和发展方向,并从整体系统的角度进一步讨论了主要的挑战和未来趋势。  


下图 1 为端到端人脸识别系统的流程展示:


下图 2 介绍了各章节的主要内容,图中左侧部分主要是功能性的介绍,包括参考提供全面介绍和讨论的功能内容。右侧部分为技术性的内容,对三个要素分别进行了详细的分析。  


人脸检测

给定一幅输入图像,人脸检测的目标是找到图像中所有的人脸,并给出所有人脸的包围框的坐标和置信度得分。为了让读者更好的认识和理解人脸检测的发展,研究者从多个角度对人脸检测方法进行了分类,包括多阶段、单阶段、anchor-based、anchor-free、多任务学习、CPU 实时、面向问题等方法,具体分类可以参考下表 1。

表 1:深度人脸检测方法的类别

下图 3 给出了具有代表性的人脸检测方法的发展历程。

图 3:脸检测方法的发展历程

此外,研究者讨论了人脸检测方法对后续人脸对齐和表征环节的影响。不精确的检测框会导致人脸关键点定位性能下降,使用更鲁棒的人脸检测器能够进一步提升识别性能。相关实验结果如下图 4 所示。

图 4:人脸检测对后续要素的影响

人脸对齐

人脸对齐的目标是将检测到的人脸校准到一个规范的标准化视图,并裁剪为固定图像尺寸的图像,这是提高人脸识别性能的必要步骤。人脸对齐方法包括基于关键点对齐和不使用关键点的两种技术方案。其中,基于关键点的对齐方法是目前最常用的方案,根据如何获取关键点可分为坐标点回归、热力图回归以及 3D 模型拟合三种方法。不使用关键点的人脸对齐方法通过可学习的方式直接生成对齐后的人脸图像,具体分类可以参考下表 2。

表 2:人脸对齐方法的类别

下图 5 给出了人脸对齐方法的发展历程。

图 5:人脸对齐方法的发展历程

同时,研究者进一步讨论了五种不同的对齐方法对人脸识别性能的影响。下图 6 中的实验结果表明恰当的对齐策略能够有利于提升人脸识别性能。

图 6:合适的对齐策略有利于提升人脸识别性能

人脸表征

人脸表征利用深度卷积神经网络模型从预处理后的人脸图像中提取具有身份判别力的特征,这些特征用于计算匹配人脸之间的相似度。我们从网络模型架构,训练监督,以及具体的识别任务三个方面对人脸表征分别进行介绍,方法的具体分类可参考下表 3。

表 3:人脸表征学习方法的类别

下图 7 是人脸表征训练监督方法的发展历程,包含了分类学习、特征嵌入、混合方法以及半监督学习四种方案。

图 7:人脸表征训练监督方法

下图 8 是三种有监督人脸表示学习方法与公开数据集规模的发布趋势,其中分类学习是目前主流研究和采用的方法。可以发现随着训练和测试的数据集规模不断增加,对大规模数据集进行闭集分类训练,可以近似模拟人脸识别的开集场景。这可能是近年来基于分类的训练方法得到广泛研究并占据主导地位的原因。

图 8:三种监督人脸表示学习方法与公开数据集规模的发布趋势

讨论和总结

最后,研究者分析了端到端人脸识别系统各个组成要素现有的问题和未来趋势,同时还有三种要素共有的挑战,以及面向整个识别系统的角度讨论了现有挑战和发展方向,如下表 4 所示。

表 4:端到端深度人脸识别系统的主要挑战

相关文章
|
7月前
|
人工智能 小程序 Java
电子班牌管理系统源代码,基于AI人脸识别技术的智能电子班牌云平台解决方案
电子班牌管理系统源码,基于AI人脸识别的智慧校园云平台,支持SaaS架构,涵盖管理端、小程序与安卓班牌端。集成考勤、课表、通知、门禁等功能,提供多模式展示与教务联动,助力校园智能化管理。
334 0
|
人工智能 数据可视化 数据挖掘
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。
1292 34
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
|
人工智能 自然语言处理 前端开发
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
淘宝推荐信息流业务,常年被“需求多、技术栈杂、协作慢”困扰,需求上线周期动辄一周。WaterFlow——一套 AI 驱动的端到端开发新实践,让部分需求两天内上线,甚至产品经理也能“自产自销”需求。短短数月,已落地 30+ 需求、自动生成 5.4 万行代码,大幅提升研发效率。接下来,我们将揭秘它是如何落地并改变协作模式的。
1163 37
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
|
人工智能 缓存 NoSQL
【深度】企业 AI 落地实践(四):如何构建端到端的 AI 应用观测体系
本文探讨了AI应用在实际落地过程中面临的三大核心问题:如何高效使用AI模型、控制成本以及保障输出质量。文章详细分析了AI应用的典型架构,并提出通过全栈可观测体系实现从用户端到模型推理层的端到端监控与诊断。结合阿里云的实践经验,介绍了基于OpenTelemetry的Trace全链路追踪、关键性能指标(如TTFT、TPOT)采集、模型质量评估与MCP工具调用观测等技术手段,帮助企业在生产环境中实现AI应用的稳定、高效运行。同时,针对Dify等低代码平台的应用部署与优化提供了具体建议,助力企业构建可扩展、可观测的AI应用体系。
|
数据采集 人工智能 自然语言处理
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。
1454 20
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
|
人工智能 计算机视觉
HarmonyOS NEXT AI基础视觉服务-人脸识别
这是一个基于AI基础视觉服务的人脸识别案例,通过调用设备相册选择图片,利用MediaLibraryKit、ImageKit和CoreVisionKit等模块完成图像处理与人脸检测,并展示结构化结果。核心功能包括:相册访问授权、图像数据转换、人脸位置及特征点检测,最终以弹窗形式输出检测信息。代码涵盖模块导入、功能实现与UI构建,适合学习AI视觉应用开发流程。
|
人工智能 编解码 语音技术
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
3298 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
785 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
机器学习/深度学习 传感器 人工智能
2024.11|全球具身智能的端到端AI和具身Agent技术发展到哪里了
2024年,具身智能领域取得显著进展,特别是在端到端AI控制系统和多模态感知技术方面。这些技术不仅推动了学术研究的深入,也为科技公司在实际应用中带来了突破。文章详细介绍了端到端AI的演化、自监督学习的应用、多模态感知技术的突破、基于强化学习的策略优化、模拟环境与现实环境的迁移学习、长程任务规划与任务分解、人机协作与社会交互能力,以及伦理与安全问题。未来几年,具身智能将在多模态感知、自监督学习、任务规划和人机协作等方面继续取得重要突破。
1092 2
|
7月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1963 75