每日学术速递4.19

简介: 最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Visual Instruction Tuning

0bfaa1d5ea420196621a1647464db9a7.png


标题:可视化指令调优

作者:Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

文章链接:https://arxiv.org/abs/2304.08485

项目代码:https://llava-vl.github.io/

cbe9244aebade4d9571253b2e18ab7a3.png

fb3738cd3c18c7cb6f8f0744d4bba2ab.png

3f2832b576fd283a3f7abb4e169b423f.png

4c5cc6f3696f8bef7a7f46a0a15694a1.png

摘要:

       使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调优提高了新任务的零样本能力,但这一想法在多模式领域的探索较少。在本文中,我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,我们介绍了 LLaVA:大型语言和视觉助手,这是一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。我们的早期实验表明,LLaVA展示了令人印象深刻的多模型聊天能力,有时在看不见的图像/指令上表现出多模态 GPT-4 的行为,并且与合成多模态指令跟随数据集上的 GPT-4 相比,产生了 85.1% 的相对分数。当在 Science QA 上进行微调时,LLaVA 和 GPT-4 的协同作用达到了 92.53% 的新的最先进的准确率。我们公开了 GPT-4 生成的视觉指令调整数据、我们的模型和代码库。

2.Learning to Render Novel Views from Wide-Baseline Stereo Pairs(CVPR 2023 )

180520d79766fe0f11ae187909bfed45.png

标题:学习从宽基线立体对中渲染新颖的视图

作者:Yilun Du, Cameron Smith, Ayush Tewari, Vincent Sitzmann

文章链接:https://arxiv.org/abs/2304.08463

项目代码:https://yilundu.github.io/wide_baseline/

57e21d1265e9685a730a1017cd8e987a.png

0b5b62a32330eb956a2f0e405cc7886e.png

4c49fb2d9d61e33d36b48cf384cb6c5c.png

9e1d02d8ef113ae7e021ddb9ba9fd257.png

摘要:

       我们介绍了一种仅给定单个宽基线立体图像对的新颖视图合成方法。在这个具有挑战性的制度中,3D 场景点仅定期观察一次,需要基于先验的场景几何和外观重建。我们发现,由于恢复不正确的 3D 几何形状,以及由于可微分渲染的高成本阻碍了它们扩展到大规模训练,现有的从稀疏观察合成新视图的方法失败了。我们朝着解决这些缺点迈出了一步,制定了多视图变换器编码器,提出了一种高效的图像空间极线采样方案来为目标射线组装图像特征,以及一种基于交叉注意力的轻量级渲染器。我们的贡献使我们的方法能够在室内和室外场景的大规模真实世界数据集上进行训练。我们证明了我们的方法在减少渲染时间的同时学习了强大的多视图几何先验。我们对两个真实世界数据集的保留测试场景进行了广泛的比较,显着优于先前从稀疏图像观察到新视图合成的工作,并实现了多视图一致的新视图合成。

3.DETRs Beat YOLOs on Real-time Object Detection

7ec17114d62622a4f3e293daddc743a5.png

标题:DETRs 在实时目标检测上击败 YOLOs

作者:Wenyu Lv, Shangliang Xu, Yian Zhao, Guanzhong Wang, Jinman Wei, Cheng Cui, Yuning Du, Qingqing Dang, Yi Liu

文章链接:https://arxiv.org/abs/2304.08069

1b3c31bea9a2229228eaed2b6beb6948.png

067c8104f1ee97b144eb429e1d52b525.png

241e61b5363162a202b4dce62e6b8b5e.png

5e47871073b42640e0b5a772d674ad48.png

70143236aac022c83d7033acf242b47a.png


摘要:

       最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准。为了避免 NMS 引起的推理延迟,我们提出了实时检测转换器 (RT-DETR),据我们所知,这是第一个实时端到端对象检测器。具体来说,我们设计了一种高效的混合编码器,通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征,并提出 IoU 感知查询选择以改进对象查询的初始化。此外,我们提出的检测器支持通过使用不同的解码器层灵活调整推理速度而无需重新训练,这有助于实时目标检测器的实际应用。我们的 RT-DETR-L 在 COCO val2017 上实现了 53.0% 的 AP,在 T4 GPU 上实现了 114 FPS,而 RT-DETR-X 实现了 54.8% 的 AP 和 74 FPS,在速度和精度上都优于所有相同规模的 YOLO 检测器。此外,我们的 RT-DETR-R50 达到了 53.1% AP 和 108 FPS,准确率比 DINO-Deformable-DETR-R50 高出 2.2% AP,在 FPS 上高出约 21 倍。PaddleDetection 将提供源代码和预训练模型。

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
161 0
每日学术速递3.20
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
115 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
109 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
127 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
116 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
138 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递2.16
半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成
154 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递4.6
大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一
150 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
109 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
206 0

热门文章

最新文章