每日学术速递4.1

简介: 本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CL


1.HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

466654b91d912b29e71942b2f9ddadbe.png


标题:HuggingGPT:使用 ChatGPT 及其在 HuggingFace 中的朋友解决 AI 任务

作者:Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang

文章链接:https://arxiv.org/abs/2303.17580

457dc2affa15b87c7f448f62555261fa.png

0e968666f9b8693029386bc1df76246e.png

52afe3aa2651b5b7b6292c7d61d8f730.png

摘要:

       解决具有不同领域和模式的复杂 AI 任务是通向通用人工智能 (AGI) 的关键一步。虽然有丰富的 AI 模型可用于不同的领域和模式,但它们无法处理复杂的 AI 任务。考虑到大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出非凡的能力,我们提倡 LLM 可以充当控制器来管理现有的 AI 模型以解决复杂的 AI 任务,并且语言可以作为通用接口来赋能这。基于这一理念,我们提出了 HuggingGPT,这是一个利用 LLM(例如 ChatGPT)连接机器学习社区(例如 HuggingFace)中的各种 AI 模型以解决 AI 任务的系统。具体来说,我们在收到用户请求时使用 ChatGPT 进行任务规划,根据 HuggingFace 中可用的功能描述选择模型,用选定的 AI 模型执行每个子任务,并根据执行结果汇总响应。借助ChatGPT强大的语言能力和HuggingFace丰富的AI模型,HuggingGPT能够覆盖众多不同模态和领域的复杂AI任务,并在语言、视觉、语音等具有挑战性的任务中取得令人瞩目的成果,开辟了一条新的道路。走向通用人工智能。

2.Language Models Trained on Media Diets Can Predict Public Opinion

d060a1d63a569759fadf2912b92d5412.png

标题:在媒体饮食上训练的语言模型可以预测公众舆论

作者:Eric Chu, Jacob Andreas, Stephen Ansolabehere, Deb Roy

文章链接:https://arxiv.org/abs/2303.16779

ee3e882561b43865ee9c5a4706808fb0.png

9bde479e3271e4008c9c6fb425543ba0.png

摘要:

       民意反映和塑造社会行为,但传统的基于调查的工具来衡量它是有限的。我们引入了一种新方法来探索媒体饮食模型——适应在线新闻、电视广播或广播节目内容的语言模型——可以模拟消费了一组媒体的亚群的意见。为验证此方法,我们将美国全国代表性调查中关于 COVID-19 和消费者信心的意见用作基本事实。我们的研究表明,这种方法 (1) 可以预测调查响应分布中发现的人类判断,并且对媒体曝光的措辞和渠道具有稳健性,(2) 更准确地为更密切关注媒体的人建模,以及 (3) 与文献保持一致哪些类型的意见受到媒体消费的影响。探索语言模型为研究媒体效果提供了一种强大的新方法,在补充民意调查和预测公众舆论方面具有实际应用,并表明需要进一步研究神经语言模型可以预测人类反应的令人惊讶的保真度。

Subjects: cs.CV


3.F²-NeRF: Fast Neural Radiance Field Training with Free Camera Trajectories

2fea62c065d560b27acd90a8bb5be262.png


标题:F²-NeRF:使用自由相机轨迹进行快速神经辐射场训练

作者:Peng Wang, Yuan Liu, Zhaoxi Chen, Lingjie Liu, Ziwei Liu, Taku Komura, Christian Theobalt, Wenping Wang

文章链接:https://arxiv.org/abs/2303.15951

项目代码:https://totoro97.github.io/projects/f2-nerf/

1a3b0a8351d4b1d714199bf3858e3b0f.png

04aac562bf384b0e7ed3deb44fea42f8.png

106373a3c5ec01a67708ec4ace304c07.png

d386305d8d4b803aa82e72c840969282.png

摘要:

       本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。在本文中,我们深入研究了处理无界场景的空间扭曲机制。基于我们的分析,我们进一步提出了一种称为透视变形的新空间变形方法,它允许我们处理基于网格的 NeRF 框架中的任意轨迹。大量实验表明,F2-NeRF 能够使用相同的透视变形在两个标准数据集和我们收集的新自由轨迹数据集上渲染高质量图像。项目页面:这个 https URL

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
148 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
110 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
105 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
108 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
69 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
177 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
145 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
186 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
101 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
84 0
下一篇
无影云桌面