【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(下)

简介: 【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(8 月 10 日论文合集)(下)

一、分类|识别相关(13篇)(下)

1.7 FaceSkin: A Privacy Preserving Facial skin patch Dataset for multi Attributes classification

FaceSkin:一种用于多属性分类的隐私保护人脸皮肤斑块数据集
https://arxiv.org/abs/2308.04765
人脸皮肤图像包含丰富的纹理信息,可以作为属性分类,如年龄,种族和性别的有价值的功能。另外,面部皮肤图像提供容易收集和最小隐私问题的优点。然而,具有足够数量的图像的良好标记的人类皮肤数据集的可用性是有限的。为了解决这个问题,我们引入了一个名为FaceSkin的数据集,它包含了不同的年龄和种族。此外,为了拓宽应用场景,我们将从2D和3D攻击图像获得的合成皮肤补丁,包括打印纸,重放和3D掩模。我们评估了不同类别的FaceSkin数据集,并给出了实验结果,证明了其在属性分类中的有效性,以及其在各种下游任务中的潜力,如人脸反欺骗和年龄估计。

1.8 Rapid Training Data Creation by Synthesizing Medical Images for Classification and Localization

综合医学图像进行分类定位的快速训练数据生成
https://arxiv.org/abs/2308.04687
虽然使用人工智能(AI)进行医学图像分析正在获得广泛的认可,但由于数据和专家注释的可用性有限,在医学领域生成注释数据所需的专业知识、时间和成本非常高。强监督对象定位模型需要详尽注释的数据,这意味着识别图像中的所有感兴趣对象。这对于医学图像而言难以实现和验证。我们提出了一种转换真实数据来训练任何深度神经网络的方法来解决上述问题。我们展示了这种方法在弱监督本地化模型和强监督本地化模型上的功效。对于弱监督模型,我们表明,使用生成的数据的定位精度显着增加。对于强监督模型,该方法克服了对真实图像进行详尽注释的需要。在后一个模型中,我们表明,准确性,当训练生成的图像时,密切平行于训练时,与详尽注释的真实图像的准确性。结果显示在使用显微镜获得的人尿液样品的图像上。

1.9 Addressing Racial Bias in Facial Emotion Recognition

解决面部情绪识别中的种族偏见问题
https://arxiv.org/abs/2308.04674
使用高维输入和主观标签训练的深度学习模型中的公平性仍然是一个复杂且未充分研究的领域。面部情绪识别是一个数据集通常在种族上不平衡的领域,可以导致产生跨种族群体不同结果的模型。本研究的重点是分析种族偏见的亚抽样训练集与不同的种族分布和评估测试性能在这些模拟。我们的研究结果表明,较小的数据集与构成的脸改善公平性和性能指标的模拟接近种族平衡。值得注意的是,F1得分平均增加了27.2美元,人口均等平均增加了15.7美元。然而,在具有更大面部变化的较大数据集中,公平性指标通常保持恒定,这表明种族平衡本身不足以实现不同种族群体之间的测试性能的均等。

1.10 Long-Distance Gesture Recognition using Dynamic Neural Networks

基于动态神经网络的远程手势识别
https://arxiv.org/abs/2308.04643
手势是人类和机器之间进行交流的重要媒介。绝大多数现有的手势识别方法都是针对人类和机器彼此非常接近的场景而定制的。这种短距离假设对于几种类型的交互不成立,例如与地板清洁机器人或无人机的基于手势的交互。由于手势仅占据输入数据的一小部分,因此针对短距离识别的方法不能很好地执行长距离识别。它们的性能在资源受限的设置中尤其差,在资源受限的设置中,它们不能有效地将其有限的计算集中在手势主体上。我们提出了一种新的,准确和有效的方法,从更长的距离识别手势。它使用一个动态的神经网络来选择特征的输入传感器数据的包含手势的空间区域进行进一步处理。这有助于网络专注于对手势识别重要的特征,同时早期丢弃背景特征,从而使其与其他技术相比更具计算效率。我们证明了我们的方法在LD-ConGR长距离数据集上的性能,在识别精度和计算效率上优于以前的最先进的方法。

1.11 GeoAdapt: Self-Supervised Test-Time Adaption in LiDAR Place Recognition Using Geometric Priors

GeoAdapt:基于几何先验的激光雷达位置识别中的自监督测试时间自适应
https://arxiv.org/abs/2308.04638
当训练数据集和测试数据集的分布之间存在变化时,基于深度学习的LiDAR位置识别方法的性能会显著下降,通常需要重新训练才能实现最佳性能。然而,在新的环境中获得准确的地面实况可能是非常昂贵的,特别是在复杂的或缺乏GPS的环境中。为了解决这个问题,我们提出了GeoAdapt,它引入了一种新的辅助分类头来生成伪标签,用于以自我监督的方式在看不见的环境中进行重新训练。GeoAdapt使用几何一致性作为先验,以提高我们生成的伪标签对域偏移的鲁棒性,从而提高我们的测试时自适应方法的性能和可靠性。综合实验表明,GeoAdapt显着提高了中度到严重的域变化的地方识别性能,并具有竞争力的完全监督的测试时间适应方法。我们的代码将在https://github.com/csiro-robotics/GeoAdapt上提供。

1.12 Classification of lung cancer subtypes on CT images with synthetic pathological priors

综合病理先验的肺癌CT图像亚型分类
https://arxiv.org/abs/2308.04663
肺癌病理亚型的准确诊断对后续治疗和预后管理具有重要意义。在本文中,我们提出了自生成的混合特征网络(SGHF-Net)的准确分类肺癌亚型的计算机断层扫描(CT)图像。受研究表明同一病例的CT图像与其病理图像之间的图像模式存在跨尺度关联的启发,我们创新性地开发了病理特征合成模块(PFSM),该模块通过深度神经网络定量映射跨模态关联,以从CT图像中导出相应病理图像中包含的“金标准”信息。此外,我们还设计了一个放射学特征提取模块(RFEM),可以直接获取CT图像信息,并在有效的特征融合框架下将其与病理先验信息相结合,使整个分类模型能够生成更具指示性和特异性的病理相关特征,并最终输出更准确的预测结果。该模型的优越性在于它能够自我生成的混合功能,包含多模态图像信息的基础上,一个单一的模态输入。为了评估我们的模型的有效性、适应性和泛化能力,我们在大规模多中心数据集(即,来自三家医院的829例病例),以比较我们的模型和一系列最先进的(SOTA)分类模型。实验结果表明,我们的模型的优越性,肺癌亚型分类的准确性(ACC),曲线下面积(AUC),和F1评分的准确性显着提高。

1.13 Improving Medical Image Classification in Noisy Labels Using Only Self-supervised Pretraining

仅使用自监督预训练改进噪声标签下的医学图像分类
https://arxiv.org/abs/2308.04551
噪声标签会损害基于深度学习的监督图像分类性能,因为模型可能过拟合噪声并学习损坏的特征提取器。对于带有噪声标记数据的自然图像分类训练,具有对比自监督预训练权重的模型初始化已被证明可以减少特征损坏并提高分类性能。然而,没有任何作品探索过:i)其他自监督方法(例如基于任务的预训练)如何影响具有噪声标签的学习,以及ii)单独用于噪声标签设置中的医学图像的任何自监督预训练方法。医学图像通常具有较小的数据集和细微的类间变化,需要人类专业知识来确保正确的分类。因此,目前尚不清楚在自然图像数据集中(如CIFAR)改进噪声标签学习的方法是否也有助于医学图像。在这项工作中,我们探索了基于对比和借口任务的自监督预训练,以初始化具有自诱导噪声标签的两个医学数据集的深度学习分类模型的权重- NCT-CRC-HE-100 K组织组织学图像和COVID-QU-Ex胸部X射线图像。我们的研究结果表明,通过自监督学习获得的预训练权重初始化的模型可以有效地学习更好的特征,并提高对噪声标签的鲁棒性。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
186 0
|
7月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
134 2
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
7月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
7月前
|
机器学习/深度学习 编解码 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
7月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
70 1
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
279 3

热门文章

最新文章