一、分类|识别相关(13篇)(上)
1.1 A degree of image identification at sub-human scales could be possible with more advanced clusters
在更高级的集群中,可以实现一定程度的亚人类级别的图像识别
https://arxiv.org/abs/2308.05092
这项研究的目的是确定目前可用的自我监督学习技术是否可以使用与人们获得的感官输入相同的程度和数量来实现人类对视觉图像的理解。关于此主题的初始研究仅考虑数据量缩放。在这里,我们缩放数据量和图像质量。这个缩放实验是一种自我监督的学习方法,可以在没有任何外部融资的情况下完成。我们发现,扩大数据量和图片分辨率在同一时间,使人类水平的项目检测性能在次人类sizes.We运行的缩放实验与Vision Transformers训练高达200000图像高达256 ppi。
1.2 IDiff-Face: Synthetic-based Face Recognition through Fizzy Identity-Conditioned Diffusion Models
IDiff-Face:基于模糊身份条件扩散模型的合成人脸识别
https://arxiv.org/abs/2308.04995
在过去的十年中,大规模真实人脸数据库的可用性对于人脸识别研究取得的重大进展至关重要。然而,法律和伦理问题导致其创建者最近撤回了许多这些数据库,这引发了对未来人脸识别研究在没有其关键资源的情况下的连续性的质疑。合成数据集已经成为隐私敏感的真实数据的一个有前途的替代品,用于人脸识别开发。然而,最近用于训练人脸识别模型的合成数据集受到类内多样性或跨类(身份)歧视的限制,导致不太理想的准确性,远远低于在真实数据上训练的模型所达到的准确性。本文针对这个问题,提出IDiff-Face,一种新的方法,基于条件潜在扩散模型的合成身份生成与现实的身份变化的人脸识别训练。通过广泛的评估,我们提出的基于合成的人脸识别方法推动了最先进的性能的极限,例如,在野外标签人脸(LFW)基准测试上实现了98.00%的准确率,远远领先于最近的基于合成的人脸识别解决方案95.40%,并以99.82%的准确率弥合了差距。
1.3 JEDI: Joint Expert Distillation in a Semi-Supervised Multi-Dataset Student-Teacher Scenario for Video Action Recognition
JEDI:用于视频动作识别的半监督多数据集师生场景中的联合专家提取
https://arxiv.org/abs/2308.04934
我们提出了JEDI,一种多数据集半监督学习方法,它有效地结合了来自多个专家的知识,在不同的数据集上学习,以训练和提高个人,每个数据集,学生模型的性能。我们的方法通过解决当前机器学习研究中的两个重要问题来实现这一目标:跨数据集的泛化以及由于标记数据的稀缺而导致的监督训练的限制。我们从任意数量的专家开始,在他们自己的特定数据集上进行预训练,这些数据集形成了初始的学生模型集。教师立即通过连接来自学生的倒数第二层的特征表示而得到。然后,我们在学生-教师半监督学习场景中训练所有模型,直到收敛。在我们有效的方法中,学生和教师的培训是联合进行的,端到端,显示学生和教师在培训过程中提高了他们的泛化能力。我们验证了我们的方法在四个视频动作识别数据集。通过在统一的半监督设置中同时考虑所有数据集,我们展示了比初始专家的显着改进。
1.4 Cross-view Semantic Alignment for Livestreaming Product Recognition
用于直播产品识别的跨视点语义对齐
https://arxiv.org/abs/2308.04912
直播商务是通过直播在线销售产品的行为。客户对在线产品的多样化需求为直播产品识别带来了更多挑战。以前的作品主要集中在时尚服装数据或利用单模态输入,这并不反映现实世界的情况下,来自不同类别的多模态数据存在。在本文中,我们提出了LPR 4 M,一个大规模的多模态数据集,涵盖34个类别,包括3种形式(图像,视频和文本),是50?大于最大的公开可用数据集。LPR 4 M包含不同的视频和噪声模态对,同时表现出长尾分布,类似于现实世界的问题。此外,cRoss-view semantiC alignmEnt(RICE)模型提出了学习判别实例功能的图像和视频视图的产品。这是通过实例级对比学习和跨视图补丁级特征传播来实现的。提出了一种新的面片特征重构损失,以惩罚跨视图面片之间的语义错位。大量的实验证明了RICE的有效性,并提供了对数据集多样性和表现力的重要性的见解。数据集和代码可在https://github.com/adxcreative/RICE上获得
1.5 View while Moving: Efficient Video Recognition in Long-untrimmed Videos
边看边看:对未裁剪的长视频进行高效视频识别
https://arxiv.org/abs/2308.04834
最近的自适应视频识别方法大多遵循“预览然后识别”的两阶段范式,并在多个视频基准测试中取得了巨大的成功。然而,这种两阶段范式涉及两次访问的原始帧从粗粒度到细粒度在推理期间(不能并行化),捕获的时空特征不能在第二阶段重复使用(由于变化的粒度),是不友好的效率和计算优化。为此,受人类认知的启发,我们提出了一种新的识别范式的“边看边移动”的有效的长期未修剪的视频识别。与两阶段范式相比,我们的范式只需要访问原始帧一次。将粗粒度采样和细粒度识别两个阶段结合起来,形成统一的时空建模,表现出良好的性能。此外,我们研究了视频中的语义单元的属性,并提出了一种分层机制,以有效地捕获和推理的单元级和视频级的时间语义长untrimmed视频分别。大量的实验表明,我们的方法优于国家的最先进的方法在精度和效率方面,产生新的效率和精度的权衡视频时空建模。
1.6 Seeing in Flowing: Adapting CLIP for Action Recognition with Motion Prompts Learning
看在流动中:将剪辑改编为动作识别和动作提示学习
https://arxiv.org/abs/2308.04828
对比语言-图像预训练(CLIP)最近在“zero-shot”训练上显示出显著的推广性,并已应用于许多下游任务。我们探索CLIP的适应,以实现更有效和更广泛的动作识别方法。我们建议,关键在于明确建模的运动线索流在视频帧。为此,我们设计了一个双流运动建模块来同时捕获运动和空间信息。然后,利用所获得的运动线索驱动动态提示学习者生成运动感知提示,其中包含了大量关于人类行为的语义信息。此外,我们提出了一个多模态通信块,以实现协作学习,并进一步提高性能。我们在HMDB-51,UCF-101和Kinetics-400数据集上进行了广泛的实验。我们的方法优于大多数现有的国家的最先进的方法,由一个显着的利润率“Few-Shot”和“zero-shot”的培训。我们还在“闭集”训练上实现了具有竞争力的性能,具有极少数的可训练参数和额外的计算成本。