每日学术速递4.1

简介: 本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL


1.HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

466654b91d912b29e71942b2f9ddadbe.png


标题:HuggingGPT:使用 ChatGPT 及其在 HuggingFace 中的朋友解决 AI 任务

作者:Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang

文章链接:https://arxiv.org/abs/2303.17580

457dc2affa15b87c7f448f62555261fa.png

0e968666f9b8693029386bc1df76246e.png

52afe3aa2651b5b7b6292c7d61d8f730.png

摘要:

       解决具有不同领域和模式的复杂 AI 任务是通向通用人工智能 (AGI) 的关键一步。虽然有丰富的 AI 模型可用于不同的领域和模式,但它们无法处理复杂的 AI 任务。考虑到大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出非凡的能力,我们提倡 LLM 可以充当控制器来管理现有的 AI 模型以解决复杂的 AI 任务,并且语言可以作为通用接口来赋能这。基于这一理念,我们提出了 HuggingGPT,这是一个利用 LLM(例如 ChatGPT)连接机器学习社区(例如 HuggingFace)中的各种 AI 模型以解决 AI 任务的系统。具体来说,我们在收到用户请求时使用 ChatGPT 进行任务规划,根据 HuggingFace 中可用的功能描述选择模型,用选定的 AI 模型执行每个子任务,并根据执行结果汇总响应。借助ChatGPT强大的语言能力和HuggingFace丰富的AI模型,HuggingGPT能够覆盖众多不同模态和领域的复杂AI任务,并在语言、视觉、语音等具有挑战性的任务中取得令人瞩目的成果,开辟了一条新的道路。走向通用人工智能。

2.Language Models Trained on Media Diets Can Predict Public Opinion

d060a1d63a569759fadf2912b92d5412.png

标题:在媒体饮食上训练的语言模型可以预测公众舆论

作者:Eric Chu, Jacob Andreas, Stephen Ansolabehere, Deb Roy

文章链接:https://arxiv.org/abs/2303.16779

ee3e882561b43865ee9c5a4706808fb0.png

9bde479e3271e4008c9c6fb425543ba0.png

摘要:

       民意反映和塑造社会行为,但传统的基于调查的工具来衡量它是有限的。我们引入了一种新方法来探索媒体饮食模型——适应在线新闻、电视广播或广播节目内容的语言模型——可以模拟消费了一组媒体的亚群的意见。为验证此方法,我们将美国全国代表性调查中关于 COVID-19 和消费者信心的意见用作基本事实。我们的研究表明,这种方法 (1) 可以预测调查响应分布中发现的人类判断,并且对媒体曝光的措辞和渠道具有稳健性,(2) 更准确地为更密切关注媒体的人建模,以及 (3) 与文献保持一致哪些类型的意见受到媒体消费的影响。探索语言模型为研究媒体效果提供了一种强大的新方法,在补充民意调查和预测公众舆论方面具有实际应用,并表明需要进一步研究神经语言模型可以预测人类反应的令人惊讶的保真度。

Subjects: cs.CV


3.F²-NeRF: Fast Neural Radiance Field Training with Free Camera Trajectories

2fea62c065d560b27acd90a8bb5be262.png


标题:F²-NeRF:使用自由相机轨迹进行快速神经辐射场训练

作者:Peng Wang, Yuan Liu, Zhaoxi Chen, Lingjie Liu, Ziwei Liu, Taku Komura, Christian Theobalt, Wenping Wang

文章链接:https://arxiv.org/abs/2303.15951

项目代码:https://totoro97.github.io/projects/f2-nerf/

1a3b0a8351d4b1d714199bf3858e3b0f.png

04aac562bf384b0e7ed3deb44fea42f8.png

106373a3c5ec01a67708ec4ace304c07.png

d386305d8d4b803aa82e72c840969282.png

摘要:

       本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。在本文中,我们深入研究了处理无界场景的空间扭曲机制。基于我们的分析,我们进一步提出了一种称为透视变形的新空间变形方法,它允许我们处理基于网格的 NeRF 框架中的任意轨迹。大量实验表明,F2-NeRF 能够使用相同的透视变形在两个标准数据集和我们收集的新自由轨迹数据集上渲染高质量图像。项目页面:这个 https URL

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
120 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
177 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
116 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
202 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
121 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
185 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
115 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
129 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
111 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
138 0