2月27日,CVPR2024 论文录用放榜。
魔搭社区整理了 CVPR 2024中稿论文中在社区上可下载的开源模型、体验Demo的一些工作,给大家带来第一波盘点:
DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors
- Paper:https://arxiv.org/abs/2312.16837
- Studio:https://www.modelscope.cn/studios/Biwen1996/avatar_generation_and_stylization/summary
本文介绍了一种名为DiffusionGAN3D的新框架,用于文本引导下的三维域适应和生成任务。该框架结合了三维GAN模型和扩散先验,能够提供稳定、高质量的人像生成,并且具有灵活高效的文本引导功能。此外,为了增强领域适应和人像生成的能力,作者还引入了一些损失函数和可学习的三角平面等技术手段。实验结果表明,该框架在领域适应和人像生成任务中均取得了优秀的表现,优于现有方法。
En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data
- Paper:https://arxiv.org/abs/2401.01173
- Studio:https://modelscope.cn/studios/alibaba_openvision_3dgen/En3D/summary
现有生产中3D人物资产的制作过程繁琐复杂、技术门槛高,存在着效率低下、成本高昂的问题。在这项工作中,我们提出了一个零样本建模的预训练通用3D人物生成框架En3D,其训练无需依赖任何3D或2D数据集,能够快速生成高质量、内容多样的3D人体模型;同时支持角色绑定驱动、文本描述生成及图像引导生成等,输出资产兼容现有CG渲染管线。实现表明其生成结果在质量、精度、内容多样性上均显著优于现在方法。
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio
- Paper:https://arxiv.org/abs/2403.01901
- Code:https://github.com/modelscope/facechain
- Studio:https://www.modelscope.cn/studios/CVstudio/cv_human_portrait/summary(人物说话视频生成部分)
本文介绍了一种新的方法——“听觉想象”,通过输入音频生成多样化的高质量动态人脸动画。该方法主要解决两个关键问题:如何准确地分离出身份、内容和情感等信息,并保持视频内部多样性与外部一致性。为了解决这些问题,作者设计了渐进式音频解耦模型和可控连贯帧生成器。实验结果表明,该方法在处理这种新范式时具有灵活性和有效性。
另外,围绕FaceChain开源项目还有另一篇论文工作也被收录
FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-shot Subject-Driven Generation
(目前该Paper暂未public)
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation
- Paper:https://arxiv.org/abs/2312.04483
- Code:https://github.com/ali-vilab/VGen
- Model:https://modelscope.cn/models/iic/HiGen/summary
扩散模型在图像生成领域表现出色,但在真实多样视频生成上仍面临挑战,主要是由于空间与时间维度的交织增加了T2V任务难度。本研究提出HiGen方法,通过结构与内容双层面解耦空间与时间要素以提升性能。结构层面中,设计统一去噪器将任务拆分为空间推理(利用文本构建空间一致性)和时间推理(生成连贯运动)两个步骤。内容层面,从输入视频中提取运动变化及外观变化线索,指导模型训练以灵活生成内容并增强时序稳定性。HiGen通过解耦降低了复杂性,有效生成语义精确、动态稳定的高质量视频,并在对比实验中超越了最先进T2V技术。
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
- Paper: https://arxiv.org/abs/2311.04257
- Code: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
- Model:https://www.modelscope.cn/models/iic/mPLUG-Owl2/summary(可下载模型权重)
本文介绍了一种名为mPLUG-Owl2的多模态大型语言模型,该模型能够有效地利用不同模态之间的协作来提高性能。mPLUG-Owl2采用模块化网络设计,并将语言解码器作为管理不同模态的通用接口。具体来说,它引入了共享功能模块以促进模态间的协作,并且还引入了一个适应性模块,可以保留模态特定的特征。实验结果表明,mPLUG-Owl2能够在纯文本和多模态任务中实现统一化,并在单个通用模型中达到最先进的性能水平。值得注意的是,mPLUG-Owl2是第一个展示多模态合作现象的MLLM模型,在纯文本和多模态场景下都具有开创性的意义,为未来多模态基础模型的发展开辟了新的道路。
SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing
- Paper:https://arxiv.org/abs/2312.11392
- Project Page:https://scedit.github.io/
- Code:https://github.com/modelscope/scepter
- Studio:https://modelscope.cn/studios/iic/scepter_studio/summary
图像扩散模型因其广泛的应用在文生图、可控图像生成和图像编辑等任务中备受青睐。然而,虽然最近的研究借助微调方法在特定应用上取得了成效,却常面临训练资源消耗大的问题。本文深入研究了扩散模型U-Net中跳跃连接的作用,并揭示了在编码器和解码器之间聚合远距离信息的分层特征对图像生成的内容和质量有着显著的影响。基于此观察,提出了一个高效的生成微调框架——SCEdit (Skip Connection Editing),该框架整合并编辑跳跃连接,并使用了名为SC-Tuner的轻量级微调模块。此外,所提出的框架允许通过可控的SC-Tuner注入不同的条件,直接扩展到可控图像生成任务上,简化并统一了多条件输入的网络设计。由于采用了轻量级微调器同时反向传播仅经过解码器,SCEdit大幅度降低了训练参数量、内存消耗和计算开销。在文生图和可控图像生成任务上进行的广泛实验证明了我们方法在效率和性能方面的优越性。
后续将持续推出社区上顶会论文相关的开源工作
敬请关注