顶会速递 | CVPR 2024 魔搭社区模型/创空间盘点(一)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 魔搭社区整理了 CVPR 2024中稿论文中在社区上可下载的开源模型、体验Demo的一些工作,给大家带来第一波盘点

2月27日,CVPR2024 论文录用放榜

魔搭社区整理了 CVPR 2024中稿论文中在社区上可下载的开源模型、体验Demo的一些工作,给大家带来第一波盘点:


DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors


本文介绍了一种名为DiffusionGAN3D的新框架,用于文本引导下的三维域适应和生成任务。该框架结合了三维GAN模型和扩散先验,能够提供稳定、高质量的人像生成,并且具有灵活高效的文本引导功能。此外,为了增强领域适应和人像生成的能力,作者还引入了一些损失函数和可学习的三角平面等技术手段。实验结果表明,该框架在领域适应和人像生成任务中均取得了优秀的表现,优于现有方法。




En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data

现有生产中3D人物资产的制作过程繁琐复杂、技术门槛高,存在着效率低下、成本高昂的问题。在这项工作中,我们提出了一个零样本建模的预训练通用3D人物生成框架En3D,其训练无需依赖任何3D或2D数据集,能够快速生成高质量、内容多样的3D人体模型;同时支持角色绑定驱动、文本描述生成及图像引导生成等,输出资产兼容现有CG渲染管线。实现表明其生成结果在质量、精度、内容多样性上均显著优于现在方法。


FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio

本文介绍了一种新的方法——“听觉想象”,通过输入音频生成多样化的高质量动态人脸动画。该方法主要解决两个关键问题:如何准确地分离出身份、内容和情感等信息,并保持视频内部多样性与外部一致性。为了解决这些问题,作者设计了渐进式音频解耦模型和可控连贯帧生成器。实验结果表明,该方法在处理这种新范式时具有灵活性和有效性。


另外,围绕FaceChain开源项目还有另一篇论文工作也被收录

FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-shot Subject-Driven Generation

(目前该Paper暂未public)



Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation


扩散模型在图像生成领域表现出色,但在真实多样视频生成上仍面临挑战,主要是由于空间与时间维度的交织增加了T2V任务难度。本研究提出HiGen方法,通过结构与内容双层面解耦空间与时间要素以提升性能。结构层面中,设计统一去噪器将任务拆分为空间推理(利用文本构建空间一致性)和时间推理(生成连贯运动)两个步骤。内容层面,从输入视频中提取运动变化及外观变化线索,指导模型训练以灵活生成内容并增强时序稳定性。HiGen通过解耦降低了复杂性,有效生成语义精确、动态稳定的高质量视频,并在对比实验中超越了最先进T2V技术。



mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration


本文介绍了一种名为mPLUG-Owl2的多模态大型语言模型,该模型能够有效地利用不同模态之间的协作来提高性能。mPLUG-Owl2采用模块化网络设计,并将语言解码器作为管理不同模态的通用接口。具体来说,它引入了共享功能模块以促进模态间的协作,并且还引入了一个适应性模块,可以保留模态特定的特征。实验结果表明,mPLUG-Owl2能够在纯文本和多模态任务中实现统一化,并在单个通用模型中达到最先进的性能水平。值得注意的是,mPLUG-Owl2是第一个展示多模态合作现象的MLLM模型,在纯文本和多模态场景下都具有开创性的意义,为未来多模态基础模型的发展开辟了新的道路。



SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing


图像扩散模型因其广泛的应用在文生图、可控图像生成和图像编辑等任务中备受青睐。然而,虽然最近的研究借助微调方法在特定应用上取得了成效,却常面临训练资源消耗大的问题。本文深入研究了扩散模型U-Net中跳跃连接的作用,并揭示了在编码器和解码器之间聚合远距离信息的分层特征对图像生成的内容和质量有着显著的影响。基于此观察,提出了一个高效的生成微调框架——SCEdit (Skip Connection Editing),该框架整合并编辑跳跃连接,并使用了名为SC-Tuner的轻量级微调模块。此外,所提出的框架允许通过可控的SC-Tuner注入不同的条件,直接扩展到可控图像生成任务上,简化并统一了多条件输入的网络设计。由于采用了轻量级微调器同时反向传播仅经过解码器,SCEdit大幅度降低了训练参数量、内存消耗和计算开销。在文生图和可控图像生成任务上进行的广泛实验证明了我们方法在效率和性能方面的优越性。




后续将持续推出社区上顶会论文相关的开源工作

敬请关注


相关文章
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
机器学习/深度学习 缓存 PyTorch
PyTorch 2.0 推理速度测试:与 TensorRT 、ONNX Runtime 进行对比
PyTorch 2.0 于 2022 年 12 月上旬在 NeurIPS 2022 上发布,它新增的 torch.compile 组件引起了广泛关注,因为该组件声称比 PyTorch 的先前版本带来更大的计算速度提升。
1183 0
|
10月前
|
Kubernetes Java 持续交付
小团队 CI/CD 实践:无需运维,Java Web应用的自动化部署
本文介绍如何使用GitHub Actions和阿里云Kubernetes(ACK)实现Java Web应用的自动化部署。通过CI/CD流程,开发人员无需手动处理复杂的运维任务,从而提高效率并减少错误。文中详细讲解了Docker与Kubernetes的概念,并演示了从创建Kubernetes集群、配置容器镜像服务到设置GitHub仓库Secrets及编写GitHub Actions工作流的具体步骤。最终实现了代码提交后自动构建、推送镜像并部署到Kubernetes集群的功能。整个过程不仅简化了部署流程,还确保了应用在不同环境中的稳定运行。
532 9
|
前端开发 JavaScript
除了 jsPDF,还有哪些前端库可以用于生成 PDF?
【10月更文挑战第21天】这些前端库都有各自的特点和优势,你可以根据具体的项目需求、技术栈以及对功能的要求来选择合适的库。不同的库在使用方法、性能表现以及功能支持上可能会有所差异,需要根据实际情况进行评估和选择。
|
机器人
【ROS速成】半小时入门机器人ROS系统简明教程之安装测速(二)
半小时入门机器人ROS系统简明教程之安装测速
536 0
|
Kubernetes Serverless 开发者
阿里云 SAE 2.0 正式商用,极简易用、百毫秒弹性效率,降本 40%
本文主要介绍阿里云 Serverless 应用引擎如何帮助企业跨越技术鸿沟,从传统应用架构无感升级到 Serverless 架构,以更高效、更经济的方式进行转型,快速进入云原生快车道,让 2 人的研发团队享受 2000 人技术团队的红利。
|
机器学习/深度学习 算法框架/工具
详细探讨跨域学习与迁移学习在图像识别中的应用
详细探讨跨域学习与迁移学习在图像识别中的应用
|
缓存 Kubernetes 安全
小而美:两步完成从源码到应用的极简交付
本文将主要介绍,如何通过 SAE 快速实现项目从源码到应用的交付与上线。
51917 1
|
NoSQL 关系型数据库 MongoDB
MongoDB的安装配置及使用
MongoDB的安装配置及使用
5072 0
|
canal SQL 关系型数据库
MySQL数据直接实时同步到ES
MySQL数据直接实时同步到ES
268 0

热门文章

最新文章