每日学术速递5.6

简介: 大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.AG3D: Learning to Generate 3D Avatars from 2D Image Collections


d70b1b0f3ac751711513ee517608b973.png

标题:AG3D:学习从 2D 图像集合生成 3D 头像

作者:Zijian Dong, Xu Chen, Jinlong Yang, Michael J. Black, Otmar Hilliges, Andreas Geiger

文章链接:https://arxiv.org/abs/2305.02312

项目代码:https://zj-dong.github.io/AG3D/

6954bf0ce849d198544c1d3cee74f734.png

d7de4d3a27c05be96485d89e31d8a430.png

10af3c7e8e12a1f3ca7fdabd8394baf8.png

摘要:

       虽然人类外表的 2D 生成模型进展迅速,但许多应用程序需要可以动画和渲染的 3D 化身。不幸的是,大多数现有的学习具有不同形状和外观的 3D 人体生成模型的方法都需要 3D 训练数据,而这些数据有限且获取成本高昂。因此,进步的关键是从丰富的非结构化 2D 图像集合中学习 3D 化身的生成模型。然而,在这种欠约束的环境中学习真实和完整的 3D 外观和几何形状仍然具有挑战性,尤其是在存在宽松衣服(例如连衣裙)的情况下。在本文中,我们提出了一种新的来自 2D 图像的真实 3D 人的对抗生成模型。我们的方法通过采用整体 3D 生成器并集成高效灵活的关节模块来捕捉身体和宽松衣服的形状和变形。为了提高真实性,我们使用多个鉴别器训练我们的模型,同时还以预测的 2D 法线图的形式整合几何线索。我们通过实验发现,我们的方法在几何和外观方面优于以前的 3D 和关节感知方法。我们通过系统的消融研究验证了我们模型的有效性和每个组件的重要性。

2.Real-Time Radiance Fields for Single-Image Portrait View Synthesis(SIGGRAPH 2023)

d3c76d6bfd8df0c11135c226d81d078a.png

标题:用于单图像人像视图合成的实时辐射场

作者:Alex Trevithick, Matthew Chan, Michael Stengel, Eric R. Chan, Chao Liu, Zhiding Yu, Sameh Khamis, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano

文章链接:https://arxiv.org/abs/2305.02310

项目代码:https://research.nvidia.com/labs/nxp/lp3d/

e531058a796f31258c7c37fde0ab76ee.png

753c7a8d540595db3fe88e16220bffaf.png

摘要:

       我们提出了一种一次性方法,可以实时从单个未摆姿势的图像(例如人脸肖像)推断和渲染逼真的 3D 表示。给定单个 RGB 输入,我们的图像编码器直接预测神经辐射场的规范三平面表示,用于通过体积渲染进行 3D 感知的新视图合成。我们的方法在消费类硬件上速度很快(24 fps),并且比需要测试时间优化的强 GAN 反转基线产生更高质量的结果。为了训练我们的三平面编码器流水线,我们仅使用合成数据,展示了如何将知识从预训练的 3D GAN 提取到前馈编码器中。技术贡献包括基于 Vision Transformer 的三平面编码器、相机数据增强策略以及用于合成数据训练的精心设计的损失函数。我们以最先进的方法为基准,展示了在具有挑战性的现实世界环境中稳健性和图像质量的显着改进。我们展示了我们在人脸肖像 (FFHQ) 和猫 (AFHQ) 上的结果,但我们的算法也可以在未来应用于其他类别,并带有 3D 感知图像生成器。

3.Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings

a59ad8b1504ee54ff110d353b9bfb1f6.png

标题:视觉思维链:通过多模式填充弥合逻辑鸿沟

作者:Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang

文章链接:https://arxiv.org/abs/2305.02317

f5e6ae71283eca66a5c5d853aa6c4239.png

6892ad524d422d8680675739d1af0ab9.png

d5e888ca7551900a9d594aed3a441ef4.png

9669be1885db06049a0a27bc71af2a39.png

9a3a40b01169329b9b14742b88b5945b.png

1e2893b66767d033482d7289a43b5763.png

摘要:

       大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务。我们声称将视觉增强结合到推理中是必不可少的,尤其是对于复杂的、富有想象力的任务。因此,我们引入了 VCoT,这是一种利用思维链提示和视觉语言基础的新方法,以递归地弥合顺序数据中的逻辑差距。我们的方法使用视觉引导来生成合成的多模式填充,这些填充添加了一致的和新颖的信息,以减少可以从时间推理中受益的下游任务的逻辑差距,并为模型的多步推理提供可解释性。我们将 VCoT 应用于 Visual Storytelling 和 WikiHow 摘要数据集,并通过人工评估证明 VCoT 提供了新颖且一致的合成数据增强,击败了思想基线链,可用于增强下游性能。

目录
相关文章
MindOpt APL 达摩院自己的建模语言!
MindOpt建模语言(MindOpt Algebraic Programming Language, MindOpt APL, 简称为MAPL)是MindOpt团队研发的一种代数建模语言。相比与其他的语言,MAPL语法相对较少且自然,很贴近数学语言。用MAPL描述数学规划模型与用数学公式进行描述非常类似。
MindOpt APL 达摩院自己的建模语言!
|
18天前
阿里云服务器带宽收费价格解析:1M、3M、5M、10M带宽价格参考
阿里云服务器1M、3M、5M、10M宽带需要多少钱?单说阿里云服务器宽带多少钱,而不确定云服务器实例规格及cpu和内存配置的话,是没办法具体说多少钱的,因为云服务器的价格受很多因素影响。本文将详细解析阿里云服务器在1M、3M、5M、10M不同带宽下的价格差异,以供您参考和选择。
436 3
|
物联网 5G 数据处理
|
分布式计算 DataWorks 大数据
MaxCompute操作报错合集之在开发环境代码运行没问题,生产环境运行报错,是什么导致的
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
314 0
|
机器学习/深度学习 自然语言处理 搜索推荐
自然语言处理在智能客服系统中的应用
自然语言处理在智能客服系统中的应用
535 0
|
运维 Kubernetes 供应链
云原生时代的运维体系进化
基于容器、Kubernetes 等云原生技术,提供的开放社区标准、不可变基础设施、声明式 API 会成为企业 CloudOps 的最佳实践,也将在这个基础上推进数据化、智能化体系建设,将运维复杂性进一步下沉,让企业可以聚焦于自己的业务创新。阿里云也将持续向外输出自身在超大规模云原生实践和探索中的能力沉淀,与更多企业、开发者一起,躬身入局,全面拥抱云原生运维技术体系。
4726 100
云原生时代的运维体系进化
|
弹性计算 虚拟化 异构计算
阿里云GPU服务器NVIDIA A100 GPU卡租用价格表
阿里云GPU服务器NVIDIA A100 GPU卡租用价格表,阿里云GPU服务器租用价格表包括包年包月价格、一个小时收费以及学生GPU服务器租用费用,阿里云GPU计算卡包括NVIDIA V100计算卡、T4计算卡、A10计算卡和A100计算卡,GPU云服务器gn6i可享受3折优惠,阿里云百科分享阿里云GPU服务器租用价格表、GPU一个小时多少钱以及学生GPU服务器收费价格表
15227 0
阿里云GPU服务器NVIDIA A100 GPU卡租用价格表
|
定位技术
Echarts实战案例代码(27):地理坐标图视觉引导线及富文本提示框的案例
Echarts实战案例代码(27):地理坐标图视觉引导线及富文本提示框的案例
767 0
|
存储 人工智能 NoSQL
MATLAB 之 数值数据,矩阵的表示和变量及其操作
MATLAB 数据类型较为丰富,既有数值型、字符串等基本数据类型,又有结构(Structure)、单元(Cell)等复杂的数据类型。 在 MATLAB 中,没有专门的逻辑型数据,而以数值 1 (非零)表示真,以数值 0 表示假。 MATLAB 各种数据类型都以矩阵形式存在,所以矩阵是 MATLAB 最基本的数据对象形式。
|
弹性计算
阿里云服务器支持巨型帧(Jumbo frames)说明
阿里云服务器支持巨型帧(Jumbo frames)说明,巨型帧(Jumbo frames)是指有效负载超过IEEE 802.3标准所限制的1500字节的以太网帧,增大的有效载荷有助于提高链路利用率,获得更好的网络性能,阿里云服务器部分ECS实例支持
690 0