一、分类|识别相关(10篇)
1.1 Person Re-Identification without Identification via Event Anonymization
基于事件匿名化的无身份身份重识别
https://arxiv.org/abs/2308.04402
在公共空间中大规模使用视觉监控将个人隐私置于危险之中,同时增加资源消耗(能源,带宽和计算)。神经形态视觉传感器(事件相机)最近被认为是一个有效的解决方案的隐私问题,因为他们不捕捉详细的RGB视觉信息的场景中的主题。然而,最近的深度学习架构已经能够以高保真度重建来自事件摄像机的图像,从而为基于事件的视觉应用重新引入了对隐私的潜在威胁。在本文中,我们的目标是匿名的事件流,以保护人类主体的身份,防止这种图像重建攻击。为了实现这一点,我们提出了一个端到端的网络架构,共同优化的双重目标,即保护隐私和执行下游任务,如人ReId。我们的网络学会了扰乱事件,强制从隐私攻击者恢复的图像降级。在这项工作中,我们还为社区带来了第一个基于事件的人ReId数据集,用于评估我们方法的性能。我们验证了我们的方法与广泛的实验和报告结果的合成事件数据模拟从公开的SoftBio数据集和我们提出的Event-ReId数据集。
1.2 EFaR 2023: Efficient Face Recognition Competition
EFaR 2023:高效的人脸识别竞赛
https://arxiv.org/abs/2308.04168
本文介绍了在2023年国际生物识别联合会议(IJCB 2023)上举行的高效人脸识别竞赛(EFaR)的总结。比赛共收到来自6个不同团队的17份参赛作品。为了推动高效人脸识别模型的进一步开发,提交的解决方案基于在不同基准集上实现的验证准确性的加权得分以及由浮点运算的数量和模型大小给出的可部署性进行排名。提交的评估扩展到偏见,交叉质量和大规模的识别基准。总体而言,本文概述了所提交的解决方案以及一组不同的基线实现的性能值。所提交的解决方案使用小型高效的网络架构来降低计算成本,一些解决方案应用模型量化。在当前的解决方案中,代表性不足的可能的技术的前景也给出了。
1.3 Comprehensive Assessment of the Performance of Deep Learning Classifiers Reveals a Surprising Lack of Robustness
对深度学习分类器性能的综合评估揭示出令人惊讶的缺乏稳健性
https://arxiv.org/abs/2308.04137
可靠和稳健的评估方法是开发本身稳健和可靠的机器学习模型的必要的第一步。不幸的是,通常用于评估分类器的当前评估协议不能全面地评估性能,因为它们倾向于依赖于有限类型的测试数据,而忽略其他测试数据。例如,使用标准测试数据无法评估分类器对来自其未被训练的类的样本所做的预测。另一方面,使用包含来自未知类别的样本的数据进行测试,无法评估分类器如何预测已知类别的标签。本文提倡使用广泛的不同类型的数据来对性能进行基准测试,并使用可以应用于所有此类数据类型的单一度量标准来生成一致的性能评估。使用这样的基准,人们发现当前的深度神经网络,包括那些用被认为能产生最先进鲁棒性的方法训练的深度神经网络,极易在某些类型的数据上出错。这意味着这样的模型在现实世界中是不可靠的,在现实世界中,它们可能会遇到来自许多不同领域的数据,并且它们是不安全的,因为它们很容易被愚弄而做出错误的决定。希望这些结果将推动更广泛地采用更全面的测试方法,从而在未来开发出更强大的机器学习方法。 代码可在:\url{https://codeberg.org/mwspratling/RobustnessEvaluation}
1.4 From Unimodal to Multimodal: improving the sEMG-Based Pattern Recognition via deep generative models
从单峰到多峰:通过深度生成模型改进基于表面肌电信号的模式识别
https://arxiv.org/abs/2308.04091
多模态手势识别(HGR)系统可以获得更高的识别精度。然而,获取多模态姿势识别数据通常需要用户佩戴附加的传感器,从而增加硬件成本。本文提出了一种新的生成方法,以提高表面肌电图(sEMG)的HGR的准确性,通过虚拟惯性测量单元(IMU)的信号。具体地,我们首先基于前臂sEMG信号和前臂IMU信号之间的内在相关性训练深度生成模型,以从输入的前臂sEMG信号生成虚拟前臂IMU信号。随后,sEMG信号和虚拟IMU信号被馈送到用于手势识别的多模态卷积神经网络(CNN)模型中。为了评估所提出的方法的性能,我们在6个数据库上进行了实验,包括5个公开可用的数据库和我们收集的数据库,包括28个受试者执行38个手势,包含表面肌电信号和IMU数据。实验结果表明,与基于表面肌电信号的单峰HGR方法相比,该方法的识别率提高了2.15%~ 13.10%。它表明,结合由深度生成模型生成的虚拟IMU信号可以显着提高基于sEMG的HGR的准确性。所提出的方法是一个成功的尝试,从单峰HGR过渡到多峰HGR,而无需额外的传感器硬件。
1.5 Cross-Dataset Adaptation for Instrument Classification in Cataract Surgery Videos
交叉数据集自适应用于白内障手术视频中的器械分类
https://arxiv.org/abs/2308.04035
手术工具存在检测是手术的术中和术后分析的重要部分。然而,在特定数据集上执行此任务的最先进的模型,在另一个数据集上测试时表现不佳。这是由于使用不同工具、传感器、数据分辨率等导致的数据集之间的显著域偏移而发生的。在本文中,我们强调了这个领域的转移,在通常进行的白内障手术,并提出了一种新的端到端的无监督域适应(UDA)的方法称为巴洛适配器,解决的问题的分布转移,而不需要任何标签从另一个领域。此外,我们还引入了一种新的损失,称为Barlow特征对齐损失(BFAL),它在不同域之间对齐特征,同时减少冗余和对更高批量大小的需求,从而提高跨数据集的性能。使用BFAL是一种新的方法,以解决白内障手术数据中的域转移的挑战。在两个白内障手术数据集上进行了大量的实验,结果表明,所提出的方法优于现有的UDA方法6%。代码可在https://github.com/JayParanjape/Barlow-Adaptor找到
1.6 Few-shot medical image classification with simple shape and texture text descriptors using vision-language models
基于视觉语言模型的基于简单形状和纹理文本描述子的Few-Shot医学图像分类
https://arxiv.org/abs/2308.04005
在这项工作中,我们调查的有用性的视觉语言模型(VLMs)和大型语言模型的二进制Few-Shot分类的医学图像。我们利用GPT-4模型来生成文本描述符,该描述符封装了医学图像中对象的形状和纹理特征。随后,这些GPT-4生成的描述符连同在自然图像上预训练的VLM一起被用于对胸部X射线和乳房超声图像进行分类。我们的研究结果表明,使用VLM和GPT-4生成的描述符的医学图像的Few-Shot分类是一种可行的方法。然而,准确的分类需要从分类分数的计算中排除某些描述符。此外,我们评估的能力VLM评估形状特征的乳腺肿块超声图像。我们进一步研究GPT-4产生的文本描述符集之间的变异程度。我们的工作提供了几个重要的见解VLM的医学图像分析的应用。
1.7 Zero-shot Skeleton-based Action Recognition via Mutual Information Estimation and Maximization
基于互信息估计和最大化的Zero-Shot骨架动作识别
https://arxiv.org/abs/2308.03950
基于Zero-shot骨架的动作识别旨在对可见类别的数据进行训练后识别不可见类别的动作。关键是建立视觉和语义空间之间的连接,从可见到不可见的类。以前的研究主要集中在编码序列到一个奇异的特征向量,随后的功能映射到一个相同的锚点内的嵌入空间。它们的性能受到以下阻碍:1)忽略全局视觉/语义分布对齐,这导致捕获两个空间之间的真实相互依赖性的限制。2)忽略时间信息,因为具有丰富动作线索的逐帧特征被直接汇集到单个特征向量中。我们提出了一种新的zero-shot骨架的动作识别方法,通过互信息(MI)的估计和最大化。具体而言,1)我们最大化视觉和语义空间之间的MI,以实现分布对齐; 2)我们通过鼓励MI随着观察到更多帧而增加来利用时间信息来估计MI。在三个大规模骨架动作数据集上的实验验证了该方法的有效性。代码:https://github.com/YujieOuO/SMIE.
1.8 ALFA -- Leveraging All Levels of Feature Abstraction for Enhancing the Generalization of Histopathology Image Classification Across Unseen Hospitals
ALFA--利用所有级别的特征提取来增强未见医院的组织病理学图像分类的通用性
https://arxiv.org/abs/2308.03936
我们提出了一个详尽的方法,利用所有级别的特征抽象,针对未观察到的医院的图像分类的泛化能力的增强。我们的方法采用了基于增强的自我监督与常见的分布变化,在组织病理学的情况下作为借口任务。这使我们能够从训练图像中获得不变特征,而不依赖于训练标签,从而覆盖不同的抽象级别。移动到随后的抽象级别,我们采用了一个域对齐模块,以促进在不同的训练医院的不变特征的进一步提取。为了表示参与医院的高度具体的特征,编码器被训练来对医院标签进行分类,独立于它们的诊断标签。来自这些编码器中的每一个的特征随后被解开以最小化冗余并分离特征。这种表示,它跨越了广泛的语义信息,使模型的发展,展示了增强的鲁棒性,看不见的图像从不同的分布。实验结果从PACS数据集(域泛化基准),通过应用组织病理学特定的抖动的MHIST数据集(定义不同的域与不同的分布变化),和肾细胞癌数据集来自四个图像存储库从TCGA创建的合成数据集,共同表明,我们提出的模型是善于管理不同级别的图像粒度。因此,当面对新的、分布外的医院图像时,它显示出改进的概括性。
1.9 ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings for Video Action Recognition
ViLP:使用视觉、语言和姿势嵌入进行视频动作识别的知识探索
https://arxiv.org/abs/2308.03908
视频动作识别(VAR)是一个具有挑战性的任务,由于其固有的复杂性。虽然在文献中已经探索了不同的方法,但设计一个统一的框架来识别大量的人类行为仍然是一个具有挑战性的问题。最近,多模态学习(MML)在这一领域已经表现出可喜的成果。在文献中,2D骨架或姿势模态通常用于此任务,独立地或与视频中存在的视觉信息(RGB模态)结合。然而,姿势、视觉信息和文本属性的组合尚未被探索,尽管文本和姿势属性独立地已被证明在许多计算机视觉任务中是有效的。在本文中,我们提出了第一个姿势增强视觉语言模型(VLM)的VAR。值得注意的是,我们的方案在两个流行的人类视频动作识别基准数据集UCF-101和HMDB-51上分别达到了92.81%和73.02%的准确率,即使没有任何视频数据预训练,在动力学预训练后的准确率为96.11%和75.75%。
1.10 Distributionally Robust Classification on a Data Budget
基于数据预算的分布式稳健分类
https://arxiv.org/abs/2308.03821
深度学习的现实应用需要在分布变化下的可预测模型行为。CLIP等模型显示出与人类相当的自然分布鲁棒性,但可能需要数亿个训练样本。我们能否在数据有限的领域中训练出健壮的学习者?为了严格解决这个问题,我们引入了JANUS(联合注释和名称集),这是一个包含图像,标签和相应标题的四个新训练数据集的集合,并对有助于图像分类鲁棒性的因素进行了一系列仔细控制的调查,然后将这些结果与来自大规模荟萃分析的结果进行比较。使用这种方法,我们证明了在240万图像样本上使用交叉熵损失训练的标准ResNet-50可以达到与在4亿样本上训练的CLIP ResNet-50相当的鲁棒性。据我们所知,这是第一个结果显示(近)国家的最先进的分布鲁棒性有限的数据预算。我们的数据集可以在\url{https://huggingface.co/datasets/penfever/JANuS_dataset}上找到,用于重现我们实验的代码可以在\url{https://github.com/penfever/vlhub/}上找到。