每日学术速递3.2

简介: 基于点击的交互式分割(IS)旨在提取用户交互下的目标对象。对于这项任务,当前大多数基于深度学习 (DL) 的方法主要遵循语义分割的一般流程。尽管取得了令人鼓舞的性能,但它们并没有完全明确地利用和传播点击信息,不可避免地导致不令人满意的分割结果,即使在点击点也是如此。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.Interactive Segmentation as Gaussian Process Classification(CVPR 2023)

c4ad3840a00133b98b34b4ba3b8b24c3.jpg

标题:作为高斯过程分类的交互式分割

作者:Minghao Zhou, Hong Wang, Qian Zhao, Yuexiang Li, Yawen Huang, Deyu Meng, Yefeng Zheng

文章链接:https://arxiv.org/abs/2302.14578v1

项目代码:https://github.com/zmhhmz/gpcis_cvpr2023

d3ee081472f9536491b467b21f63ca00.png

729c11fd02a1cd4e434f88fef9810db1.png

605c1d6b256e75c1f7ef8ac724740ae9.png


摘要:

       基于点击的交互式分割(IS)旨在提取用户交互下的目标对象。对于这项任务,当前大多数基于深度学习 (DL) 的方法主要遵循语义分割的一般流程。尽管取得了令人鼓舞的性能,但它们并没有完全明确地利用和传播点击信息,不可避免地导致不令人满意的分割结果,即使在点击点也是如此。针对这个问题,在本文中,我们建议将 IS 任务制定为每个图像上基于高斯过程 (GP) 的逐像素二进制分类模型。为了解决这个模型,我们利用分摊变分推理以数据驱动的方式逼近难处理的 GP 后验,然后将近似的 GP 后验解耦为双空间形式,以实现具有线性复杂度的高效采样。然后,我们相应地构建了一个 GP 分类框架,命名为 GPCIS,它与深度内核学习机制相结合,具有更大的灵活性。所提出的 GPCIS 的主要特点在于:1)在派生 GP 后验的明确指导下,点击中包含的信息可以很好地传播到整个图像,然后促进分割;2)点击预测的准确性有很好的理论支持。GPCIS 的这些优点及其良好的通用性和高效率已通过几个基准的综合实验得到证实,并与代表性方法进行了定量和定性比较。

2.ProxyFormer: Proxy Alignment Assisted Point Cloud Completion with Missing Part Sensitive Transformer(CVPR 2023)

76ab8acf0576c3d01f91e94fc3d08b46.png


标题:ProxyFormer:代理对齐辅助点云完成与缺失部分敏感变压器

作者:Shanshan Li, Pan Gao, Xiaoyang Tan, Mingqiang Wei

文章链接:https://arxiv.org/abs/2302.14435v1

项目代码:https://github.com/i2-multimedia-lab/proxyformer

bf5cdd35d83b6c074651a0790fee83c2.png

a644da5a5b874f16b01c530ba22dcbf4.png

f565f2a536bd8d15a4fed22bdd40e1e3.png

摘要:

       设备缺陷或视点受限等问题会导致捕获的点云不完整。因此,从部分点云中恢复完整点云在许多实际任务中起着至关重要的作用,而关键之一在于对缺失部分的预测。在本文中,我们提出了一种新颖的点云完成方法,即 ProxyFormer,它将点云分为现有(输入)和缺失(待预测)部分,每个部分通过其代理传递信息。具体来说,我们通过特征和位置提取器将信息融合到点代理中,并从现有点代理的特征中生成缺失点代理的特征。然后,为了更好地感知缺失点的位置,我们设计了一个缺失部分敏感转换器,将随机正态分布转换为合理的位置信息,并使用代理对齐来细化缺失代理。它使预测点代理对缺失部分的特征和位置更加敏感,从而使这些代理更适合后续的由粗到精的过程。实验结果表明,我们的方法在几个基准数据集上优于最先进的补全网络,并且具有最快的推理速度。代码可在 https://github.com/I2-Multimedia-Lab/ProxyFormer 获得。

Subjects: cs.LG


3.RoPAWS: Robust Semi-supervised Representation Learning from Uncurated Data(ICLR 2023)

a6e21dcec5347473f25ec1f2efacf884.png

标题:RoPAWS:从未经整理的数据中进行稳健的半监督表示学习

作者:Sangwoo Mo, Jong-Chyi Su, Chih-Yao Ma, Mido Assran, Ishan Misra, Licheng Yu, Sean Bell

文章链接:https://arxiv.org/abs/2302.14483v1

项目代码:https://github.com/facebookresearch/suncet

50b1a97260097b4f651a78b3b608c30b.png

903282fe7c0ec4264347c43761ffae95.png

e3f25dbe6b155bde1a0bb1d39895a9f9.png

摘要:

       半监督学习旨在使用有限的标签训练模型。用于图像分类的最先进的半监督方法(例如 PAWS)依赖于使用大规模未标记但经过整理的数据学习的自我监督表示。但是,当使用未经整理的真实世界未标记数据(例如,包含类外数据)时,PAWS 通常效率较低。我们提出了 RoPAWS,它是 PAWS 的强大扩展,可以处理真实世界的未标记数据。我们首先将 PAWS 重新解释为使用核密度估计对密度进行建模的生成分类器。从这个概率的角度来看,我们根据标记和未标记数据的密度校准其预测,从而根据贝叶斯规则得出一个简单的封闭形式的解决方案。我们证明,RoPAWS 显着提高了未策划的 Semi-iNat 的 PAWS + 5.3% 和策划的 ImageNet + 0.4%。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
137 0
每日学术速递3.9
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
102 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
163 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.16
我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小
157 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
116 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
102 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
177 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
142 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
111 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
113 0
下一篇
无影云桌面