顶会速递 | CVPR 2024 魔搭社区模型/创空间盘点(一)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 魔搭社区整理了 CVPR 2024中稿论文中在社区上可下载的开源模型、体验Demo的一些工作,给大家带来第一波盘点

2月27日,CVPR2024 论文录用放榜

魔搭社区整理了 CVPR 2024中稿论文中在社区上可下载的开源模型、体验Demo的一些工作,给大家带来第一波盘点:


DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors


本文介绍了一种名为DiffusionGAN3D的新框架,用于文本引导下的三维域适应和生成任务。该框架结合了三维GAN模型和扩散先验,能够提供稳定、高质量的人像生成,并且具有灵活高效的文本引导功能。此外,为了增强领域适应和人像生成的能力,作者还引入了一些损失函数和可学习的三角平面等技术手段。实验结果表明,该框架在领域适应和人像生成任务中均取得了优秀的表现,优于现有方法。




En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data

现有生产中3D人物资产的制作过程繁琐复杂、技术门槛高,存在着效率低下、成本高昂的问题。在这项工作中,我们提出了一个零样本建模的预训练通用3D人物生成框架En3D,其训练无需依赖任何3D或2D数据集,能够快速生成高质量、内容多样的3D人体模型;同时支持角色绑定驱动、文本描述生成及图像引导生成等,输出资产兼容现有CG渲染管线。实现表明其生成结果在质量、精度、内容多样性上均显著优于现在方法。


FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio

本文介绍了一种新的方法——“听觉想象”,通过输入音频生成多样化的高质量动态人脸动画。该方法主要解决两个关键问题:如何准确地分离出身份、内容和情感等信息,并保持视频内部多样性与外部一致性。为了解决这些问题,作者设计了渐进式音频解耦模型和可控连贯帧生成器。实验结果表明,该方法在处理这种新范式时具有灵活性和有效性。


另外,围绕FaceChain开源项目还有另一篇论文工作也被收录

FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-shot Subject-Driven Generation

(目前该Paper暂未public)



Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation


扩散模型在图像生成领域表现出色,但在真实多样视频生成上仍面临挑战,主要是由于空间与时间维度的交织增加了T2V任务难度。本研究提出HiGen方法,通过结构与内容双层面解耦空间与时间要素以提升性能。结构层面中,设计统一去噪器将任务拆分为空间推理(利用文本构建空间一致性)和时间推理(生成连贯运动)两个步骤。内容层面,从输入视频中提取运动变化及外观变化线索,指导模型训练以灵活生成内容并增强时序稳定性。HiGen通过解耦降低了复杂性,有效生成语义精确、动态稳定的高质量视频,并在对比实验中超越了最先进T2V技术。



mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration


本文介绍了一种名为mPLUG-Owl2的多模态大型语言模型,该模型能够有效地利用不同模态之间的协作来提高性能。mPLUG-Owl2采用模块化网络设计,并将语言解码器作为管理不同模态的通用接口。具体来说,它引入了共享功能模块以促进模态间的协作,并且还引入了一个适应性模块,可以保留模态特定的特征。实验结果表明,mPLUG-Owl2能够在纯文本和多模态任务中实现统一化,并在单个通用模型中达到最先进的性能水平。值得注意的是,mPLUG-Owl2是第一个展示多模态合作现象的MLLM模型,在纯文本和多模态场景下都具有开创性的意义,为未来多模态基础模型的发展开辟了新的道路。



SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing


图像扩散模型因其广泛的应用在文生图、可控图像生成和图像编辑等任务中备受青睐。然而,虽然最近的研究借助微调方法在特定应用上取得了成效,却常面临训练资源消耗大的问题。本文深入研究了扩散模型U-Net中跳跃连接的作用,并揭示了在编码器和解码器之间聚合远距离信息的分层特征对图像生成的内容和质量有着显著的影响。基于此观察,提出了一个高效的生成微调框架——SCEdit (Skip Connection Editing),该框架整合并编辑跳跃连接,并使用了名为SC-Tuner的轻量级微调模块。此外,所提出的框架允许通过可控的SC-Tuner注入不同的条件,直接扩展到可控图像生成任务上,简化并统一了多条件输入的网络设计。由于采用了轻量级微调器同时反向传播仅经过解码器,SCEdit大幅度降低了训练参数量、内存消耗和计算开销。在文生图和可控图像生成任务上进行的广泛实验证明了我们方法在效率和性能方面的优越性。




后续将持续推出社区上顶会论文相关的开源工作

敬请关注


相关文章
|
机器学习/深度学习 人工智能 算法
CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023
近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。
|
人工智能 自然语言处理 安全
书生·浦语20B模型在阿里云魔搭开源首发!
书生·浦语20B模型在阿里云魔搭开源首发!
243 0
|
算法 自动驾驶 测试技术
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
667 0
华中科大、百度&港大联合出品 | ByteTrackV2: 一种简单且强大的 2D/3D 多目标跟踪框架,横扫多项任务SOTA!
|
机器学习/深度学习 Web App开发 人工智能
近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文(2)
近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文
335 0
|
人工智能 自然语言处理 自动驾驶
近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文(1)
近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文
225 0
|
机器学习/深度学习 人工智能 自然语言处理
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
292 0
|
存储 Cloud Native 容灾
再创佳绩!阿里云4篇论文入选顶会FAST 2023
再创佳绩!阿里云4篇论文入选顶会FAST 2023
546 0
|
机器学习/深度学习 传感器 人工智能
CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的
CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的
200 0
|
存储 人工智能 编解码
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
249 0
|
机器学习/深度学习 人工智能 监控
CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集
CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集
163 0

热门文章

最新文章