每日学术速递4.15

简介: 大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields


bad947ae7f2044b5a3df9cda901e20ba.png


标题:Zip-NeRF:基于网格的抗锯齿神经辐射场

作者:Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Gao, Yong Jae Lee

文章链接:https://arxiv.org/abs/2304.06706

项目代码:https://jonbarron.info/zipnerf/

91af4553b0f9bd4bf249116269068b66.png

aecf2fc8e6f9be9f8e614020212d2306.png

4aff6cb684e5f2130e43f8f9826f61b4.png

ebafc235574510f509ab8931652919d1.png

b41eb5e7c4f46c3f0b58953e036ee82c.png

摘要:

       通过在 NeRF 从空间坐标到颜色和体积密度的学习映射中使用基于网格的表示,可以加速神经辐射场训练。然而,这些基于网格的方法缺乏对比例的明确理解,因此经常引入锯齿,通常以锯齿或场景内容缺失的形式出现。mip-NeRF 360 之前已经解决了抗锯齿问题,其原因是沿圆锥体的子体积而不是沿射线的点,但这种方法本身与当前基于网格的技术不兼容。我们展示了如何使用来自渲染和信号处理的想法来构建一种技术,该技术将 mip-NeRF 360 和基于网格的模型(例如 Instant NGP)相结合,产生的错误率比任何一种现有技术都低 8% - 76%,并且训练速度比 mip-NeRF 360 快 22 倍。

2.Segment Everything Everywhere All at Once

5b93881323d801ec07a46cc7f0e31212.png

标题:一次分割所有地方的一切

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2304.06706

项目代码:https://36771ee9c49a4631.gradio.app/

a8e4b30590ceae21e027d64e3bb66188.png

cda1954ec677b8e0077bfecfea9999f3.png

24eee1f717ec82d14f0d0cc372abd3de.png

摘要:

       尽管对交互式 AI 系统的需求不断增长,但很少有关于视觉理解中人机交互的综合研究,例如分割。受 LLM 基于提示的通用界面开发的启发,本文介绍了 SEEM,这是一种可提示的交互式模型,用于在图像中一次性分割所有内容。SEEM 有四个要求:i) 多功能性:通过为不同类型的提示引入多功能提示引擎,包括点、框、涂鸦、遮罩、文本和另一幅图像的引用区域;ii) 组合性:通过学习视觉和文本提示的联合视觉语义空间来动态组合查询以进行推理,如图 1 所示;iii) 交互性:通过结合可学习的记忆提示,通过掩码引导的交叉注意力保留对话历史信息;和 iv) 语义意识:通过使用文本编码器对文本查询和掩码标签进行编码以进行开放式词汇分割。

3.What does CLIP know about a red circle? Visual prompt engineering for VLMs

fadcb62310f7a240855d34d0ead24816.png


标题:CLIP 对红色圆圈了解多少?VLM 的视觉提示工程

作者:Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi

文章链接:https://arxiv.org/abs/2304.06712

f6891dd0676e3d2f0013c5d21a8e6a80.png

ed4a895b09274dd0b4d26bbc6cdf1776.png

480479eaae33b04274edb3619f50e615.png

9de9abb2a6adcd92f15f3ebd834b85c8.png

53cb50938e8e3fba29b46eb3e8a5110a.png

摘要:

       大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。特别是,我们发现了 CLIP 的新兴能力,通过简单地在对象周围画一个红色圆圈,我们可以将模型的注意力引导到该区域,同时还保持全局信息。我们通过在零样本引用表达式理解中实现最先进的技术和在关键点定位任务中的强大性能来展示这种简单方法的强大功能。最后,我们提请注意大型语言视觉模型的一些潜在伦理问题。

目录
相关文章
|
3月前
|
人工智能 自然语言处理 Java
从青铜到王者,DeepSeek+Spring AI 搭建 RAG 知识库
本文介绍了基于RAG(检索增强生成)技术构建知识库的原理与实现方法。RAG通过结合检索与生成模型,提升大语言模型在问答任务中的准确性与相关性,有效缓解“幻觉”问题。文章还详细讲解了如何利用DeepSeek与SpringAI搭建高效RAG系统,并提供了完整的Java代码示例,帮助开发者快速实现文档处理、向量存储与智能问答功能。适用于智能客服、内容生成、辅助决策等多个场景。
1011 2
|
JavaScript Java 测试技术
基于springboot+vue.js+uniapp的网约车管理系统附带文章源码部署视频讲解等
基于springboot+vue.js+uniapp的网约车管理系统附带文章源码部署视频讲解等
270 2
基于springboot+vue.js+uniapp的网约车管理系统附带文章源码部署视频讲解等
|
机器学习/深度学习 PyTorch 测试技术
深度学习入门:使用 PyTorch 构建和训练你的第一个神经网络
【8月更文第29天】深度学习是机器学习的一个分支,它利用多层非线性处理单元(即神经网络)来解决复杂的模式识别问题。PyTorch 是一个强大的深度学习框架,它提供了灵活的 API 和动态计算图,非常适合初学者和研究者使用。
294 0
|
缓存 开发工具 数据安全/隐私保护
通过一篇文章带你玩转git和GitHub
在现代软件开发中,版本控制系统是不可或缺的工具。Git和Github是其中最受欢迎的组合。Git是一个开源的分布式版本控制系统,用于追踪代码的改动,而Github则是一个基于Git的代码托管平台,提供了代码托管、协作开发等功能。
334 2
通过一篇文章带你玩转git和GitHub
|
Java 测试技术
collections.shuffle用法详解
collections.shuffle用法详解
|
SQL 存储 算法
Qt编码之谜:乱码问题的成因与解决策略
Qt编码之谜:乱码问题的成因与解决策略
499 0
|
机器学习/深度学习 编解码 自然语言处理
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
451 0
|
SQL Oracle 关系型数据库
PLSQL 官方下载及安装
PLSQL 官方下载及安装
3424 0
PLSQL 官方下载及安装
《QT从基础到进阶·十七》QCursor鼠标的不同位置坐标获取
《QT从基础到进阶·十七》QCursor鼠标的不同位置坐标获取
486 0
|
Java Apache Maven
Gradle安装和配置
Gradle安装和配置
633 0