每日学术速递4.1

简介: 本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL


1.HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

466654b91d912b29e71942b2f9ddadbe.png


标题:HuggingGPT:使用 ChatGPT 及其在 HuggingFace 中的朋友解决 AI 任务

作者:Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang

文章链接:https://arxiv.org/abs/2303.17580

457dc2affa15b87c7f448f62555261fa.png

0e968666f9b8693029386bc1df76246e.png

52afe3aa2651b5b7b6292c7d61d8f730.png

摘要:

       解决具有不同领域和模式的复杂 AI 任务是通向通用人工智能 (AGI) 的关键一步。虽然有丰富的 AI 模型可用于不同的领域和模式,但它们无法处理复杂的 AI 任务。考虑到大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出非凡的能力,我们提倡 LLM 可以充当控制器来管理现有的 AI 模型以解决复杂的 AI 任务,并且语言可以作为通用接口来赋能这。基于这一理念,我们提出了 HuggingGPT,这是一个利用 LLM(例如 ChatGPT)连接机器学习社区(例如 HuggingFace)中的各种 AI 模型以解决 AI 任务的系统。具体来说,我们在收到用户请求时使用 ChatGPT 进行任务规划,根据 HuggingFace 中可用的功能描述选择模型,用选定的 AI 模型执行每个子任务,并根据执行结果汇总响应。借助ChatGPT强大的语言能力和HuggingFace丰富的AI模型,HuggingGPT能够覆盖众多不同模态和领域的复杂AI任务,并在语言、视觉、语音等具有挑战性的任务中取得令人瞩目的成果,开辟了一条新的道路。走向通用人工智能。

2.Language Models Trained on Media Diets Can Predict Public Opinion

d060a1d63a569759fadf2912b92d5412.png

标题:在媒体饮食上训练的语言模型可以预测公众舆论

作者:Eric Chu, Jacob Andreas, Stephen Ansolabehere, Deb Roy

文章链接:https://arxiv.org/abs/2303.16779

ee3e882561b43865ee9c5a4706808fb0.png

9bde479e3271e4008c9c6fb425543ba0.png

摘要:

       民意反映和塑造社会行为,但传统的基于调查的工具来衡量它是有限的。我们引入了一种新方法来探索媒体饮食模型——适应在线新闻、电视广播或广播节目内容的语言模型——可以模拟消费了一组媒体的亚群的意见。为验证此方法,我们将美国全国代表性调查中关于 COVID-19 和消费者信心的意见用作基本事实。我们的研究表明,这种方法 (1) 可以预测调查响应分布中发现的人类判断,并且对媒体曝光的措辞和渠道具有稳健性,(2) 更准确地为更密切关注媒体的人建模,以及 (3) 与文献保持一致哪些类型的意见受到媒体消费的影响。探索语言模型为研究媒体效果提供了一种强大的新方法,在补充民意调查和预测公众舆论方面具有实际应用,并表明需要进一步研究神经语言模型可以预测人类反应的令人惊讶的保真度。

Subjects: cs.CV


3.F²-NeRF: Fast Neural Radiance Field Training with Free Camera Trajectories

2fea62c065d560b27acd90a8bb5be262.png


标题:F²-NeRF:使用自由相机轨迹进行快速神经辐射场训练

作者:Peng Wang, Yuan Liu, Zhaoxi Chen, Lingjie Liu, Ziwei Liu, Taku Komura, Christian Theobalt, Wenping Wang

文章链接:https://arxiv.org/abs/2303.15951

项目代码:https://totoro97.github.io/projects/f2-nerf/

1a3b0a8351d4b1d714199bf3858e3b0f.png

04aac562bf384b0e7ed3deb44fea42f8.png

106373a3c5ec01a67708ec4ace304c07.png

d386305d8d4b803aa82e72c840969282.png

摘要:

       本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。在本文中,我们深入研究了处理无界场景的空间扭曲机制。基于我们的分析,我们进一步提出了一种称为透视变形的新空间变形方法,它允许我们处理基于网格的 NeRF 框架中的任意轨迹。大量实验表明,F2-NeRF 能够使用相同的透视变形在两个标准数据集和我们收集的新自由轨迹数据集上渲染高质量图像。项目页面:这个 https URL

目录
打赏
0
0
0
0
12
分享
相关文章
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
160 0
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
133 0
每日学术速递4.11
最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。
133 0
每日学术速递3.2
基于点击的交互式分割(IS)旨在提取用户交互下的目标对象。对于这项任务,当前大多数基于深度学习 (DL) 的方法主要遵循语义分割的一般流程。尽管取得了令人鼓舞的性能,但它们并没有完全明确地利用和传播点击信息,不可避免地导致不令人满意的分割结果,即使在点击点也是如此。
144 0
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
191 0
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
164 0
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
160 0
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
174 0
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
151 0
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
183 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等