每日学术速递3.15

简介: 数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.MVImgNet: A Large-scale Dataset of Multi-view Images(CVPR 2023)

10e95860e5bfc7ee1630b47332ae1f88.png

标题:MVImgNet:多视图图像的大规模数据集

作者:Xianggang Yu, Mutian Xu, Yidan Zhang, Haolin Liu, Chongjie Ye, Yushuang Wu, Zizheng Yan

文章链接:https://arxiv.org/abs/2303.06042

项目代码:https://gaplab.cuhk.edu.cn/projects/MVImgNet/

0b5f09a8bcedbcdf1bfc56dd6b6c40bb.png

b5ee2ed9b66b13e1903eb426aad29909.png

0b3cb1960e5a8799bfda9f14d7e5092f.png

摘要:

       数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。然而,由于现实世界 3D 数据的收集工作量很大,目前还没有通用数据集作为 ImageNet 在 3D 视觉领域的对应物,因此这样的数据集如何影响 3D 社区尚不清楚。为了弥补这个缺陷,我们引入了 MVImgNet,这是一个大规模的多视图图像数据集,通过拍摄人类日常生活中真实世界物体的视频非常方便地获取它。它包含来自 219,188 个视频的 650 万帧,跨越 238 个类别的对象,具有对象蒙版、相机参数和点云的丰富注释。多视图属性赋予我们的数据集 3D 感知信号,使其成为 2D 和 3D 视觉之间的软桥梁。我们进行了试点研究,以探索 MVImgNet 在各种 3D 和 2D 视觉任务上的潜力,包括辐射场重建、多视图立体和视图一致的图像理解,其中 MVImgNet 展示了有前途的性能,为未来的探索留下了很多可能性.此外,通过在 MVImgNet 上进行密集重建,导出了一个 3D 对象点云数据集,称为 MVPNet,涵盖 150 个类别的 87,200 个样本,每个点云上都有类标签。实验表明,MVPNet 可以有益于现实世界的 3D 对象分类,同时对点云理解提出新的挑战。

2.3D Cinemagraphy from a Single Image

44a79a40849ec796d597de83ce2d0ba1.png

标题:单幅图像的 3D 电影摄影

作者:Xingyi Li, Zhiguo Cao, Huiqiang Sun, Jianming Zhang, Ke Xian, Guosheng Lin

文章链接:https://arxiv.org/abs/2303.05724

项目代码:https://xingyi-li.github.io/3d-cinemagraphy/

a57cbf5fc728a45aadb9fe4d80f9bd61.png

51443257a019ce5a3494a4a3a873e565.png

5a7df992937ee689e1aad637f8bfb259.png

摘要:

       我们介绍 3D Cinemagraphy,这是一种将 2D 图像动画与 3D 摄影相结合的新技术。给定单个静止图像作为输入,我们的目标是生成包含视觉内容动画和相机运动的视频。我们根据经验发现,天真地结合现有的 2D 图像动画和 3D 摄影方法会导致明显的伪影或不一致的动画。我们的主要见解是,在 3D 空间中表示和动画场景为这项任务提供了一个自然的解决方案。为此,我们首先使用预测的深度值将输入图像转换为基于特征的分层深度图像,然后将它们取消投影到特征点云。为了使场景动画化,我们执行运动估计并将 2D 运动提升到 3D 场景流中。最后,为了解决点向前移动时出现空洞的问题,我们建议根据场景流双向移动点云,并通过将它们分别投影到目标图像平面并混合结果来合成新视图。广泛的实验证明了我们方法的有效性。还进行了一项用户研究,以验证我们的方法令人信服的渲染结果。

3.Rewarding Chatbots for Real-World Engagement with Millions of Users

edcf3f69e362b2900aeb9ee7d66aac2b.png

标题:奖励与数百万用户在现实世界中互动的聊天机器人

作者:Robert Irvine, Douglas Boubert, Vyas Raina, Adian Liusie, Vineet Mudupalli

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://huggingface.co/ChaiML

315fce1dfba913ee6e5570585c28c565.png

a782cf2610a41a18e7b006215d0ceabe.png

f9fb6597bb2b76d7da90ea3c8efbfb06.png

摘要:

       预训练大型语言模型的出现导致部署了一系列用于聊天的社交聊天机器人。尽管这些聊天机器人展示了语言能力和流利程度,但并不能保证它们具有吸引力并且可能难以留住用户。这项工作调查了优先考虑用户参与以提高保留率的社交聊天机器人的开发,特别是检查了人类反馈的使用,以有效地开发高度参与的聊天机器人。所提出的方法使用从用户交互中收集的自动伪标签来训练奖励模型,该模型可用于拒绝聊天机器人模型在推理时生成的低分样本响应。引入直观的评估指标,例如平均对话长度 (MCL),作为衡量已部署聊天机器人参与度的指标。在 Chai Research 平台上对 10,000 个新的日常聊天机器人用户进行的 A/B 测试表明,这种方法将 MCL 提高了 70%,这意味着 GPT-J 6B 模型的用户保留率提高了 30% 以上。未来的工作旨在使用奖励模型实现数据飞轮,其中可以使用最新的用户对话来交替微调语言模型和奖励模型。

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
104 0
每日学术速递3.27
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
102 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递4.6
大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一
130 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
92 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
154 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
112 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
118 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
115 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.11
最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。
83 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.1
本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。
132 0