每日学术速递3.3

简介: 评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Pose Impact Estimation on Face Recognition using 3D-Aware Synthetic Data with Application to Quality Assessment


4123135034859a8476ae94cbd4c19767.png


标题:使用 3D 感知合成数据对人脸识别进行姿势影响估计并将其应用于质量评估

作者:Marcel Grimmer, Christian Rathgeb, Christoph Busch

文章链接:https://arxiv.org/abs/2303.00491v1

项目代码:https://github.com/datasciencegrimmer/syn-yawpitch

f547b206f1ff269c4bff767ffca6324a.png

2f295b64708627224ca70fcbc591c9b9.png

摘要:

       评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。鉴于 3D 感知生成对抗网络的最新进展,我们提出了一个新的数据集“Syn-YawPitch”,其中包含 1,000 个具有不同偏航-俯仰角度组合的身份。利用此数据集,我们证明超过 30 度的俯仰角对当前人脸识别系统的生物识别性能有重大影响。此外,我们提出了一种轻量级、高效的姿势质量预测器,它符合 ISO/IEC WD 29794-5 标准。

2.Multimodal Industrial Anomaly Detection via Hybrid Fusion

a0d8d21dcd618ba4f1c2068e820bd35f.png

标题:通过混合融合进行多模式工业异常检测

作者:Yue Wang, Jinlong Peng, Jiangning Zhang, Ran Yi, Yabiao Wang, Chengjie Wang

文章链接:https://arxiv.org/abs/2303.00601v1

项目代码:https://github.com/nomewang/m3dm

e6085963046474709950c3a736438d9c.png

84f22d824406c7c43a67276c1d121adc.png

c3da9caead2186ab26742e017768720e.png

摘要:

       基于2D的工业异常检测已被广泛讨论,然而,基于3D点云和RGB图像的多模态工业异常检测仍有许多未触及的领域。现有的多模态工业异常检测方法直接将多模态特征进行拼接,导致特征间存在较强的干扰,影响检测性能。在本文中,我们提出了多 3D 记忆 (M3DM),一种具有混合融合方案的新型多模态异常检测方法:其次,我们使用决策层与多个记忆体融合来避免信息丢失,并使用额外的新颖性分类器来做出最终决策。我们进一步提出了点特征对齐操作,以更好地对齐点云和 RGB 特征。大量实验表明,我们的多模式工业异常检测模型在 MVTec-3D AD 数据集的检测和分割精度方面优于最先进的 (SOTA) 方法。代码可在 https://github.com/nomewang/M3DM 获得。

3.ORCHNet: A Robust Global Feature Aggregation approach for 3D LiDAR-based Place recognition in Orchards

bb11e1485b81fa518a41286e2a957a7a.png

标题:ORCHNet:一种用于果园中基于 3D LiDAR 的地点识别的稳健全局特征聚合方法

作者:Barros, L. Garrote, P. Conde, M. J. Coombes, C. Liu, C. Premebida, U. J. Nunes ·

文章链接:https://arxiv.org/abs/2303.00477v1

项目代码:https://github.com/cybonic/orchnet

8f8fa8378385f47bcb7dab5cb1709ca0.png

0841e2921864c2227dc1d4e07a77cfcc.png

b40757d852f44c72b61bd1803c71b1c2.png


摘要:

       我农业环境中稳健可靠的位置识别和闭环检测仍然是一个悬而未决的问题。特别是,由于整个领域的结构相似性,果园是一个困难的案例研究。在这项工作中,我们利用 3D LiDAR 数据解决了果园中的地点识别问题,这被认为是稳健性的关键模式。因此,我们提出了 ORCHNet,这是一种基于深度学习的方法,可将 3D-LiDAR 扫描映射到全局描述符。具体来说,这项工作提出了一种新的全局特征聚合方法,它将多种聚合方法融合到一个鲁棒的全局描述符中。ORCHNet 是根据在果园中收集的真实数据进行评估的,其中包括来自夏季和秋季的数据。为了评估稳健性,我们将 ORCHNet 与来自同一季节和跨季节的数据的最先进聚合方法进行了比较。此外,我们还评估了所提出的方法作为本地化框架的一部分,其中 ORCHNet 用作闭环检测器。实证结果表明,在地点识别任务上,ORCHNet 优于其余方法,并且跨季节也更加稳健。至于定位,当将 ORCHNet 集成为环路检测器时,解决了路径穿过树木的边缘情况,显示了所提出方法在此任务中的潜在适用性。

目录
相关文章
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
87 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
82 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
129 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
74 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
179 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
95 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
90 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
124 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
112 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
108 0