NeurIPS 2024:FaceChain团队新作,开源拓扑对齐人脸表征模型TopoFR

简介: 在2024年NeurIPS会议上,FaceChain团队推出TopoFR模型,通过利用数据的拓扑结构信息,显著提升了人脸识别的准确性。TopoFR采用PTSA策略和SDE策略,分别增强了模型的泛化能力和对硬样本的处理效果。实验结果显示,TopoFR在多个基准测试中表现优异,特别是在IJB-C和IJB-B等高难度测试中,显著超越了现有方法。

在2024年的NeurIPS会议上,FaceChain团队展示了他们的最新研究成果——一种名为TopoFR的人脸识别模型。该模型旨在通过利用数据的拓扑结构信息来提高人脸识别的准确性。

人脸识别(FR)是生物特征认证技术中的关键技术,广泛应用于各种应用中。近年来,随着深度学习的兴起,人脸识别技术取得了显著的进展。然而,如何有效地利用大规模人脸数据中的潜在结构信息,仍然是人脸识别领域面临的挑战之一。

TopoFR模型的主要贡献在于,它提出了一种新颖的拓扑结构对齐策略,称为PTSA(Perturbation-guided Topological Structure Alignment),以及一种名为SDE(Structure Damage Estimation)的硬样本挖掘策略。

  1. PTSA策略:PTSA策略利用随机结构扰动(RSP)和不变结构对齐(ISA)机制,有效地对齐输入空间和潜在空间的拓扑结构。RSP机制通过随机选择数据增强操作来增加潜在空间的结构多样性,而ISA机制则通过比较两个空间的拓扑相关距离矩阵来计算它们之间的结构差异。

  2. SDE策略:SDE策略通过计算每个样本的结构损坏分数(SDS)来识别硬样本,并指导模型在优化过程中优先考虑这些样本。SDS的计算基于样本的预测不确定性和预测概率,以评估其对潜在空间结构的影响。

为了验证TopoFR模型的性能,FaceChain团队在多个主流人脸识别基准上进行了实验,包括LFW、CFP-FP、AgeDB-30、IJB-C和IJB-B。实验结果表明,TopoFR模型在所有这些基准上都取得了显著的性能提升,尤其是在IJB-C和IJB-B等具有挑战性的基准上。

例如,在IJB-C基准上,TopoFR模型在1e-5和1e-4的误识率下,分别取得了95.13%和95.77%的准确率,显著优于之前的SOTA方法。在IJB-B基准上,TopoFR模型也取得了类似的性能提升。

FaceChain团队对TopoFR模型的性能进行了深入的分析和讨论。他们发现,PTSA策略和SDE策略在模型的性能提升中起到了关键作用。

  1. PTSA策略的影响:PTSA策略通过增加潜在空间的结构多样性和准确对齐输入空间和潜在空间的拓扑结构,有效地提高了模型的泛化能力。实验结果表明,PTSA策略在处理大规模数据集时具有显著的优势。

  2. SDE策略的影响:SDE策略通过识别和优化硬样本,有效地减轻了这些样本对潜在空间结构的影响。实验结果表明,SDE策略在处理低质量人脸样本时具有显著的优势。

论文链接:https://arxiv.org/pdf/2410.10587

目录
相关文章
|
2月前
|
机器学习/深度学习 编解码 人工智能
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
Meissonic是一种新型图像生成模型,采用非自回归的掩码图像建模(MIM)方法,在性能和效率上超越了当前最先进的扩散模型SDXL。其创新点包括改进的注意力机制、多尺度特征提取、先进位置编码策略和优化采样条件等,能够生成高质量、高分辨率图像。此外,Meissonic引入人类偏好评分和特征压缩层,提升图像质量和计算效率。尽管存在一些挑战,Meissonic为统一语言-视觉模型的发展提供了新思路,并在创意设计、虚拟现实等领域展现出广泛应用前景。
85 24
|
3月前
|
机器学习/深度学习 人工智能 编解码
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。
357 18
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
|
2月前
|
机器学习/深度学习 计算机视觉
ECCV 2024:视觉定位新SOTA!华人团队开源革新框架SegVG,边界框转为分割信号
视觉定位任务旨在通过文本-图像对检测特定目标的边界框,但其监督信号稀疏,难以达到最优性能。ECCV 2024提出的SegVG方法将边界框标注转化为分割信号,提供像素级监督,显著提升定位精度。该方法采用多层多任务编码器-解码器架构和三重对齐模块,有效缓解特征域差异问题。实验表明,SegVG在多个数据集上超越了先前的SOTA方法,特别是在RefCOCO和Visual Genome数据集上分别提升了3%和超过5%的准确率。尽管如此,SegVG也存在计算复杂度高、依赖高质量标注数据及可解释性不足等缺点。
135 23
|
4月前
|
人工智能 编解码 测试技术
HART:麻省理工学院推出的自回归视觉生成模型
HART(Hybrid Autoregressive Transformer)是麻省理工学院推出的自回归视觉生成模型,能够直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。HART基于混合Tokenizer技术,显著提升了图像生成质量和计算效率,适用于数字艺术创作、游戏开发、电影和视频制作等多个领域。
85 1
|
10月前
|
机器学习/深度学习 物联网 数据处理
社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA
封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。
|
10月前
|
机器学习/深度学习 自然语言处理 计算机视觉
CVPR 2024:生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
【4月更文挑战第14天】中山大学和微信团队的研究者提出 SingDiffusion,一种解决扩散模型在处理极端亮度图像时的平均亮度问题的新方法。SingDiffusion 可无缝集成到预训练模型中,无需额外训练,通过处理 t=1 时间步长的采样问题,改善了图像生成的亮度偏差。在 COCO 数据集上的实验显示,相较于现有模型,SingDiffusion 在 FID 和 CLIP 分数上表现更优。
112 7
CVPR 2024:生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
|
10月前
|
人工智能 搜索推荐 vr&ar
开源单图生成3D模型TripoSR的未来发展方向
【2月更文挑战第27天】开源单图生成3D模型TripoSR的未来发展方向
178 2
开源单图生成3D模型TripoSR的未来发展方向
|
计算机视觉
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
534 0
|
机器学习/深度学习 人工智能 搜索推荐
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
225 0
|
机器学习/深度学习 编解码 自然语言处理
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
233 0