每日学术速递4.19

简介: 最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Visual Instruction Tuning

0bfaa1d5ea420196621a1647464db9a7.png


标题:可视化指令调优

作者:Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee

文章链接:https://arxiv.org/abs/2304.08485

项目代码:https://llava-vl.github.io/

cbe9244aebade4d9571253b2e18ab7a3.png

fb3738cd3c18c7cb6f8f0744d4bba2ab.png

3f2832b576fd283a3f7abb4e169b423f.png

4c5cc6f3696f8bef7a7f46a0a15694a1.png

摘要:

       使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调优提高了新任务的零样本能力,但这一想法在多模式领域的探索较少。在本文中,我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,我们介绍了 LLaVA:大型语言和视觉助手,这是一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。我们的早期实验表明,LLaVA展示了令人印象深刻的多模型聊天能力,有时在看不见的图像/指令上表现出多模态 GPT-4 的行为,并且与合成多模态指令跟随数据集上的 GPT-4 相比,产生了 85.1% 的相对分数。当在 Science QA 上进行微调时,LLaVA 和 GPT-4 的协同作用达到了 92.53% 的新的最先进的准确率。我们公开了 GPT-4 生成的视觉指令调整数据、我们的模型和代码库。

2.Learning to Render Novel Views from Wide-Baseline Stereo Pairs(CVPR 2023 )

180520d79766fe0f11ae187909bfed45.png

标题:学习从宽基线立体对中渲染新颖的视图

作者:Yilun Du, Cameron Smith, Ayush Tewari, Vincent Sitzmann

文章链接:https://arxiv.org/abs/2304.08463

项目代码:https://yilundu.github.io/wide_baseline/

57e21d1265e9685a730a1017cd8e987a.png

0b5b62a32330eb956a2f0e405cc7886e.png

4c49fb2d9d61e33d36b48cf384cb6c5c.png

9e1d02d8ef113ae7e021ddb9ba9fd257.png

摘要:

       我们介绍了一种仅给定单个宽基线立体图像对的新颖视图合成方法。在这个具有挑战性的制度中,3D 场景点仅定期观察一次,需要基于先验的场景几何和外观重建。我们发现,由于恢复不正确的 3D 几何形状,以及由于可微分渲染的高成本阻碍了它们扩展到大规模训练,现有的从稀疏观察合成新视图的方法失败了。我们朝着解决这些缺点迈出了一步,制定了多视图变换器编码器,提出了一种高效的图像空间极线采样方案来为目标射线组装图像特征,以及一种基于交叉注意力的轻量级渲染器。我们的贡献使我们的方法能够在室内和室外场景的大规模真实世界数据集上进行训练。我们证明了我们的方法在减少渲染时间的同时学习了强大的多视图几何先验。我们对两个真实世界数据集的保留测试场景进行了广泛的比较,显着优于先前从稀疏图像观察到新视图合成的工作,并实现了多视图一致的新视图合成。

3.DETRs Beat YOLOs on Real-time Object Detection

7ec17114d62622a4f3e293daddc743a5.png

标题:DETRs 在实时目标检测上击败 YOLOs

作者:Wenyu Lv, Shangliang Xu, Yian Zhao, Guanzhong Wang, Jinman Wei, Cheng Cui, Yuning Du, Qingqing Dang, Yi Liu

文章链接:https://arxiv.org/abs/2304.08069

1b3c31bea9a2229228eaed2b6beb6948.png

067c8104f1ee97b144eb429e1d52b525.png

241e61b5363162a202b4dce62e6b8b5e.png

5e47871073b42640e0b5a772d674ad48.png

70143236aac022c83d7033acf242b47a.png


摘要:

       最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准。为了避免 NMS 引起的推理延迟,我们提出了实时检测转换器 (RT-DETR),据我们所知,这是第一个实时端到端对象检测器。具体来说,我们设计了一种高效的混合编码器,通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征,并提出 IoU 感知查询选择以改进对象查询的初始化。此外,我们提出的检测器支持通过使用不同的解码器层灵活调整推理速度而无需重新训练,这有助于实时目标检测器的实际应用。我们的 RT-DETR-L 在 COCO val2017 上实现了 53.0% 的 AP,在 T4 GPU 上实现了 114 FPS,而 RT-DETR-X 实现了 54.8% 的 AP 和 74 FPS,在速度和精度上都优于所有相同规模的 YOLO 检测器。此外,我们的 RT-DETR-R50 达到了 53.1% AP 和 108 FPS,准确率比 DINO-Deformable-DETR-R50 高出 2.2% AP,在 FPS 上高出约 21 倍。PaddleDetection 将提供源代码和预训练模型。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
93 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
98 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
86 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
73 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.29
在这项工作中,我们介绍了 CC3D,这是一种条件生成模型,它合成以 2D 语义场景布局为条件的复杂 3D 场景,使用单视图图像进行训练。与将适用性限制在对齐的单个对象的大多数现有 3D GAN 不同,我们专注于通过对 3D 场景的组合性质进行建模来生成具有多个对象的复杂场景。
127 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
123 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
97 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
73 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
118 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
92 0