每日学术速递3.3

简介: 评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Pose Impact Estimation on Face Recognition using 3D-Aware Synthetic Data with Application to Quality Assessment


4123135034859a8476ae94cbd4c19767.png


标题:使用 3D 感知合成数据对人脸识别进行姿势影响估计并将其应用于质量评估

作者:Marcel Grimmer, Christian Rathgeb, Christoph Busch

文章链接:https://arxiv.org/abs/2303.00491v1

项目代码:https://github.com/datasciencegrimmer/syn-yawpitch

f547b206f1ff269c4bff767ffca6324a.png

2f295b64708627224ca70fcbc591c9b9.png

摘要:

       评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。鉴于 3D 感知生成对抗网络的最新进展,我们提出了一个新的数据集“Syn-YawPitch”,其中包含 1,000 个具有不同偏航-俯仰角度组合的身份。利用此数据集,我们证明超过 30 度的俯仰角对当前人脸识别系统的生物识别性能有重大影响。此外,我们提出了一种轻量级、高效的姿势质量预测器,它符合 ISO/IEC WD 29794-5 标准。

2.Multimodal Industrial Anomaly Detection via Hybrid Fusion

a0d8d21dcd618ba4f1c2068e820bd35f.png

标题:通过混合融合进行多模式工业异常检测

作者:Yue Wang, Jinlong Peng, Jiangning Zhang, Ran Yi, Yabiao Wang, Chengjie Wang

文章链接:https://arxiv.org/abs/2303.00601v1

项目代码:https://github.com/nomewang/m3dm

e6085963046474709950c3a736438d9c.png

84f22d824406c7c43a67276c1d121adc.png

c3da9caead2186ab26742e017768720e.png

摘要:

       基于2D的工业异常检测已被广泛讨论,然而,基于3D点云和RGB图像的多模态工业异常检测仍有许多未触及的领域。现有的多模态工业异常检测方法直接将多模态特征进行拼接,导致特征间存在较强的干扰,影响检测性能。在本文中,我们提出了多 3D 记忆 (M3DM),一种具有混合融合方案的新型多模态异常检测方法:其次,我们使用决策层与多个记忆体融合来避免信息丢失,并使用额外的新颖性分类器来做出最终决策。我们进一步提出了点特征对齐操作,以更好地对齐点云和 RGB 特征。大量实验表明,我们的多模式工业异常检测模型在 MVTec-3D AD 数据集的检测和分割精度方面优于最先进的 (SOTA) 方法。代码可在 https://github.com/nomewang/M3DM 获得。

3.ORCHNet: A Robust Global Feature Aggregation approach for 3D LiDAR-based Place recognition in Orchards

bb11e1485b81fa518a41286e2a957a7a.png

标题:ORCHNet:一种用于果园中基于 3D LiDAR 的地点识别的稳健全局特征聚合方法

作者:Barros, L. Garrote, P. Conde, M. J. Coombes, C. Liu, C. Premebida, U. J. Nunes ·

文章链接:https://arxiv.org/abs/2303.00477v1

项目代码:https://github.com/cybonic/orchnet

8f8fa8378385f47bcb7dab5cb1709ca0.png

0841e2921864c2227dc1d4e07a77cfcc.png

b40757d852f44c72b61bd1803c71b1c2.png


摘要:

       我农业环境中稳健可靠的位置识别和闭环检测仍然是一个悬而未决的问题。特别是,由于整个领域的结构相似性,果园是一个困难的案例研究。在这项工作中,我们利用 3D LiDAR 数据解决了果园中的地点识别问题,这被认为是稳健性的关键模式。因此,我们提出了 ORCHNet,这是一种基于深度学习的方法,可将 3D-LiDAR 扫描映射到全局描述符。具体来说,这项工作提出了一种新的全局特征聚合方法,它将多种聚合方法融合到一个鲁棒的全局描述符中。ORCHNet 是根据在果园中收集的真实数据进行评估的,其中包括来自夏季和秋季的数据。为了评估稳健性,我们将 ORCHNet 与来自同一季节和跨季节的数据的最先进聚合方法进行了比较。此外,我们还评估了所提出的方法作为本地化框架的一部分,其中 ORCHNet 用作闭环检测器。实证结果表明,在地点识别任务上,ORCHNet 优于其余方法,并且跨季节也更加稳健。至于定位,当将 ORCHNet 集成为环路检测器时,解决了路径穿过树木的边缘情况,显示了所提出方法在此任务中的潜在适用性。

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
130 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
140 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
199 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
170 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
132 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递4.6
大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一
157 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
193 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
161 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
192 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
177 0