每日学术速递4.1

简介: 本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL


1.HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

466654b91d912b29e71942b2f9ddadbe.png


标题:HuggingGPT:使用 ChatGPT 及其在 HuggingFace 中的朋友解决 AI 任务

作者:Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang

文章链接:https://arxiv.org/abs/2303.17580

457dc2affa15b87c7f448f62555261fa.png

0e968666f9b8693029386bc1df76246e.png

52afe3aa2651b5b7b6292c7d61d8f730.png

摘要:

       解决具有不同领域和模式的复杂 AI 任务是通向通用人工智能 (AGI) 的关键一步。虽然有丰富的 AI 模型可用于不同的领域和模式,但它们无法处理复杂的 AI 任务。考虑到大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出非凡的能力,我们提倡 LLM 可以充当控制器来管理现有的 AI 模型以解决复杂的 AI 任务,并且语言可以作为通用接口来赋能这。基于这一理念,我们提出了 HuggingGPT,这是一个利用 LLM(例如 ChatGPT)连接机器学习社区(例如 HuggingFace)中的各种 AI 模型以解决 AI 任务的系统。具体来说,我们在收到用户请求时使用 ChatGPT 进行任务规划,根据 HuggingFace 中可用的功能描述选择模型,用选定的 AI 模型执行每个子任务,并根据执行结果汇总响应。借助ChatGPT强大的语言能力和HuggingFace丰富的AI模型,HuggingGPT能够覆盖众多不同模态和领域的复杂AI任务,并在语言、视觉、语音等具有挑战性的任务中取得令人瞩目的成果,开辟了一条新的道路。走向通用人工智能。

2.Language Models Trained on Media Diets Can Predict Public Opinion

d060a1d63a569759fadf2912b92d5412.png

标题:在媒体饮食上训练的语言模型可以预测公众舆论

作者:Eric Chu, Jacob Andreas, Stephen Ansolabehere, Deb Roy

文章链接:https://arxiv.org/abs/2303.16779

ee3e882561b43865ee9c5a4706808fb0.png

9bde479e3271e4008c9c6fb425543ba0.png

摘要:

       民意反映和塑造社会行为,但传统的基于调查的工具来衡量它是有限的。我们引入了一种新方法来探索媒体饮食模型——适应在线新闻、电视广播或广播节目内容的语言模型——可以模拟消费了一组媒体的亚群的意见。为验证此方法,我们将美国全国代表性调查中关于 COVID-19 和消费者信心的意见用作基本事实。我们的研究表明,这种方法 (1) 可以预测调查响应分布中发现的人类判断,并且对媒体曝光的措辞和渠道具有稳健性,(2) 更准确地为更密切关注媒体的人建模,以及 (3) 与文献保持一致哪些类型的意见受到媒体消费的影响。探索语言模型为研究媒体效果提供了一种强大的新方法,在补充民意调查和预测公众舆论方面具有实际应用,并表明需要进一步研究神经语言模型可以预测人类反应的令人惊讶的保真度。

Subjects: cs.CV


3.F²-NeRF: Fast Neural Radiance Field Training with Free Camera Trajectories

2fea62c065d560b27acd90a8bb5be262.png


标题:F²-NeRF:使用自由相机轨迹进行快速神经辐射场训练

作者:Peng Wang, Yuan Liu, Zhaoxi Chen, Lingjie Liu, Ziwei Liu, Taku Komura, Christian Theobalt, Wenping Wang

文章链接:https://arxiv.org/abs/2303.15951

项目代码:https://totoro97.github.io/projects/f2-nerf/

1a3b0a8351d4b1d714199bf3858e3b0f.png

04aac562bf384b0e7ed3deb44fea42f8.png

106373a3c5ec01a67708ec4ace304c07.png

d386305d8d4b803aa82e72c840969282.png

摘要:

       本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。在本文中,我们深入研究了处理无界场景的空间扭曲机制。基于我们的分析,我们进一步提出了一种称为透视变形的新空间变形方法,它允许我们处理基于网格的 NeRF 框架中的任意轨迹。大量实验表明,F2-NeRF 能够使用相同的透视变形在两个标准数据集和我们收集的新自由轨迹数据集上渲染高质量图像。项目页面:这个 https URL

目录
打赏
0
0
0
0
12
分享
相关文章
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
156 0
每日学术速递3.27
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
232 0
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
251 0
每日学术速递3.17
怪异、不寻常和离奇的图像激起观察者的好奇心,因为它们挑战常识。例如,在 2022 年世界杯期间发布的一张图片描绘了著名足球明星莱昂内尔·梅西和克里斯蒂亚诺·罗纳尔多下棋,这调皮地违反了我们对他们的比赛应该在足球场上进行的预期。人类可以轻松识别和解读这些非常规图像,但 AI 模型也能做到吗?我们介绍了 WHOOPS!,这是一个新的视觉常识数据集和基准。
223 0
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
191 0
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
217 0
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
149 0
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
168 0
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
172 0
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
211 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等