【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(上)

简介: 【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(上)

一、分类|识别相关(13篇)(上)

1.1 A degree of image identification at sub-human scales could be possible with more advanced clusters

在更高级的集群中,可以实现一定程度的亚人类级别的图像识别
https://arxiv.org/abs/2308.05092
这项研究的目的是确定目前可用的自我监督学习技术是否可以使用与人们获得的感官输入相同的程度和数量来实现人类对视觉图像的理解。关于此主题的初始研究仅考虑数据量缩放。在这里,我们缩放数据量和图像质量。这个缩放实验是一种自我监督的学习方法,可以在没有任何外部融资的情况下完成。我们发现,扩大数据量和图片分辨率在同一时间,使人类水平的项目检测性能在次人类sizes.We运行的缩放实验与Vision Transformers训练高达200000图像高达256 ppi。

1.2 IDiff-Face: Synthetic-based Face Recognition through Fizzy Identity-Conditioned Diffusion Models

IDiff-Face:基于模糊身份条件扩散模型的合成人脸识别
https://arxiv.org/abs/2308.04995
在过去的十年中,大规模真实人脸数据库的可用性对于人脸识别研究取得的重大进展至关重要。然而,法律和伦理问题导致其创建者最近撤回了许多这些数据库,这引发了对未来人脸识别研究在没有其关键资源的情况下的连续性的质疑。合成数据集已经成为隐私敏感的真实数据的一个有前途的替代品,用于人脸识别开发。然而,最近用于训练人脸识别模型的合成数据集受到类内多样性或跨类(身份)歧视的限制,导致不太理想的准确性,远远低于在真实数据上训练的模型所达到的准确性。本文针对这个问题,提出IDiff-Face,一种新的方法,基于条件潜在扩散模型的合成身份生成与现实的身份变化的人脸识别训练。通过广泛的评估,我们提出的基于合成的人脸识别方法推动了最先进的性能的极限,例如,在野外标签人脸(LFW)基准测试上实现了98.00%的准确率,远远领先于最近的基于合成的人脸识别解决方案95.40%,并以99.82%的准确率弥合了差距。

1.3 JEDI: Joint Expert Distillation in a Semi-Supervised Multi-Dataset Student-Teacher Scenario for Video Action Recognition

JEDI:用于视频动作识别的半监督多数据集师生场景中的联合专家提取
https://arxiv.org/abs/2308.04934
我们提出了JEDI,一种多数据集半监督学习方法,它有效地结合了来自多个专家的知识,在不同的数据集上学习,以训练和提高个人,每个数据集,学生模型的性能。我们的方法通过解决当前机器学习研究中的两个重要问题来实现这一目标:跨数据集的泛化以及由于标记数据的稀缺而导致的监督训练的限制。我们从任意数量的专家开始,在他们自己的特定数据集上进行预训练,这些数据集形成了初始的学生模型集。教师立即通过连接来自学生的倒数第二层的特征表示而得到。然后,我们在学生-教师半监督学习场景中训练所有模型,直到收敛。在我们有效的方法中,学生和教师的培训是联合进行的,端到端,显示学生和教师在培训过程中提高了他们的泛化能力。我们验证了我们的方法在四个视频动作识别数据集。通过在统一的半监督设置中同时考虑所有数据集,我们展示了比初始专家的显着改进。

1.4 Cross-view Semantic Alignment for Livestreaming Product Recognition

用于直播产品识别的跨视点语义对齐
https://arxiv.org/abs/2308.04912
直播商务是通过直播在线销售产品的行为。客户对在线产品的多样化需求为直播产品识别带来了更多挑战。以前的作品主要集中在时尚服装数据或利用单模态输入,这并不反映现实世界的情况下,来自不同类别的多模态数据存在。在本文中,我们提出了LPR 4 M,一个大规模的多模态数据集,涵盖34个类别,包括3种形式(图像,视频和文本),是50?大于最大的公开可用数据集。LPR 4 M包含不同的视频和噪声模态对,同时表现出长尾分布,类似于现实世界的问题。此外,cRoss-view semantiC alignmEnt(RICE)模型提出了学习判别实例功能的图像和视频视图的产品。这是通过实例级对比学习和跨视图补丁级特征传播来实现的。提出了一种新的面片特征重构损失,以惩罚跨视图面片之间的语义错位。大量的实验证明了RICE的有效性,并提供了对数据集多样性和表现力的重要性的见解。数据集和代码可在https://github.com/adxcreative/RICE上获得

1.5 View while Moving: Efficient Video Recognition in Long-untrimmed Videos

边看边看:对未裁剪的长视频进行高效视频识别
https://arxiv.org/abs/2308.04834
最近的自适应视频识别方法大多遵循“预览然后识别”的两阶段范式,并在多个视频基准测试中取得了巨大的成功。然而,这种两阶段范式涉及两次访问的原始帧从粗粒度到细粒度在推理期间(不能并行化),捕获的时空特征不能在第二阶段重复使用(由于变化的粒度),是不友好的效率和计算优化。为此,受人类认知的启发,我们提出了一种新的识别范式的“边看边移动”的有效的长期未修剪的视频识别。与两阶段范式相比,我们的范式只需要访问原始帧一次。将粗粒度采样和细粒度识别两个阶段结合起来,形成统一的时空建模,表现出良好的性能。此外,我们研究了视频中的语义单元的属性,并提出了一种分层机制,以有效地捕获和推理的单元级和视频级的时间语义长untrimmed视频分别。大量的实验表明,我们的方法优于国家的最先进的方法在精度和效率方面,产生新的效率和精度的权衡视频时空建模。

1.6 Seeing in Flowing: Adapting CLIP for Action Recognition with Motion Prompts Learning

看在流动中:将剪辑改编为动作识别和动作提示学习
https://arxiv.org/abs/2308.04828
对比语言-图像预训练(CLIP)最近在“zero-shot”训练上显示出显著的推广性,并已应用于许多下游任务。我们探索CLIP的适应,以实现更有效和更广泛的动作识别方法。我们建议,关键在于明确建模的运动线索流在视频帧。为此,我们设计了一个双流运动建模块来同时捕获运动和空间信息。然后,利用所获得的运动线索驱动动态提示学习者生成运动感知提示,其中包含了大量关于人类行为的语义信息。此外,我们提出了一个多模态通信块,以实现协作学习,并进一步提高性能。我们在HMDB-51,UCF-101和Kinetics-400数据集上进行了广泛的实验。我们的方法优于大多数现有的国家的最先进的方法,由一个显着的利润率“Few-Shot”和“zero-shot”的培训。我们还在“闭集”训练上实现了具有竞争力的性能,具有极少数的可训练参数和额外的计算成本。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
186 0
|
7月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
134 2
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
7月前
|
机器学习/深度学习 编解码 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
7月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
70 1
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
279 3

热门文章

最新文章