顶会速递 | CVPR 2024 魔搭社区模型/创空间盘点(一)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 魔搭社区整理了 CVPR 2024中稿论文中在社区上可下载的开源模型、体验Demo的一些工作,给大家带来第一波盘点

2月27日,CVPR2024 论文录用放榜

魔搭社区整理了 CVPR 2024中稿论文中在社区上可下载的开源模型、体验Demo的一些工作,给大家带来第一波盘点:


DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors


本文介绍了一种名为DiffusionGAN3D的新框架,用于文本引导下的三维域适应和生成任务。该框架结合了三维GAN模型和扩散先验,能够提供稳定、高质量的人像生成,并且具有灵活高效的文本引导功能。此外,为了增强领域适应和人像生成的能力,作者还引入了一些损失函数和可学习的三角平面等技术手段。实验结果表明,该框架在领域适应和人像生成任务中均取得了优秀的表现,优于现有方法。




En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data

现有生产中3D人物资产的制作过程繁琐复杂、技术门槛高,存在着效率低下、成本高昂的问题。在这项工作中,我们提出了一个零样本建模的预训练通用3D人物生成框架En3D,其训练无需依赖任何3D或2D数据集,能够快速生成高质量、内容多样的3D人体模型;同时支持角色绑定驱动、文本描述生成及图像引导生成等,输出资产兼容现有CG渲染管线。实现表明其生成结果在质量、精度、内容多样性上均显著优于现在方法。


FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio

本文介绍了一种新的方法——“听觉想象”,通过输入音频生成多样化的高质量动态人脸动画。该方法主要解决两个关键问题:如何准确地分离出身份、内容和情感等信息,并保持视频内部多样性与外部一致性。为了解决这些问题,作者设计了渐进式音频解耦模型和可控连贯帧生成器。实验结果表明,该方法在处理这种新范式时具有灵活性和有效性。


另外,围绕FaceChain开源项目还有另一篇论文工作也被收录

FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-shot Subject-Driven Generation

(目前该Paper暂未public)



Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation


扩散模型在图像生成领域表现出色,但在真实多样视频生成上仍面临挑战,主要是由于空间与时间维度的交织增加了T2V任务难度。本研究提出HiGen方法,通过结构与内容双层面解耦空间与时间要素以提升性能。结构层面中,设计统一去噪器将任务拆分为空间推理(利用文本构建空间一致性)和时间推理(生成连贯运动)两个步骤。内容层面,从输入视频中提取运动变化及外观变化线索,指导模型训练以灵活生成内容并增强时序稳定性。HiGen通过解耦降低了复杂性,有效生成语义精确、动态稳定的高质量视频,并在对比实验中超越了最先进T2V技术。



mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration


本文介绍了一种名为mPLUG-Owl2的多模态大型语言模型,该模型能够有效地利用不同模态之间的协作来提高性能。mPLUG-Owl2采用模块化网络设计,并将语言解码器作为管理不同模态的通用接口。具体来说,它引入了共享功能模块以促进模态间的协作,并且还引入了一个适应性模块,可以保留模态特定的特征。实验结果表明,mPLUG-Owl2能够在纯文本和多模态任务中实现统一化,并在单个通用模型中达到最先进的性能水平。值得注意的是,mPLUG-Owl2是第一个展示多模态合作现象的MLLM模型,在纯文本和多模态场景下都具有开创性的意义,为未来多模态基础模型的发展开辟了新的道路。



SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing


图像扩散模型因其广泛的应用在文生图、可控图像生成和图像编辑等任务中备受青睐。然而,虽然最近的研究借助微调方法在特定应用上取得了成效,却常面临训练资源消耗大的问题。本文深入研究了扩散模型U-Net中跳跃连接的作用,并揭示了在编码器和解码器之间聚合远距离信息的分层特征对图像生成的内容和质量有着显著的影响。基于此观察,提出了一个高效的生成微调框架——SCEdit (Skip Connection Editing),该框架整合并编辑跳跃连接,并使用了名为SC-Tuner的轻量级微调模块。此外,所提出的框架允许通过可控的SC-Tuner注入不同的条件,直接扩展到可控图像生成任务上,简化并统一了多条件输入的网络设计。由于采用了轻量级微调器同时反向传播仅经过解码器,SCEdit大幅度降低了训练参数量、内存消耗和计算开销。在文生图和可控图像生成任务上进行的广泛实验证明了我们方法在效率和性能方面的优越性。




后续将持续推出社区上顶会论文相关的开源工作

敬请关注


相关文章
|
7月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
4月前
|
人工智能 大数据
实践证明+奖学金+项目履历!魔搭社区联合主办的AI 夏令营来了
2024 AI夏令营,由Datawhale主办,联合科大讯飞、阿里云天池、蚂蚁集团、英特尔、浪潮信息、魔搭社区等国内外顶尖人工智能企业。
|
机器学习/深度学习 人工智能 算法
CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023
近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。
|
机器学习/深度学习 人工智能 达摩院
INTERSPEECH2023|达摩院语音实验室入选论文全况速览
INTERSPEECH2023|达摩院语音实验室入选论文全况速览
1024 1
|
机器学习/深度学习 人工智能 算法
总结过去三年,MIT发布AI加速器综述论文
总结过去三年,MIT发布AI加速器综述论文
190 0
|
机器学习/深度学习 传感器 人工智能
CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的
CVPR NTIRE比赛双冠,网易互娱AI Lab是这样做的
192 0
|
机器学习/深度学习 人工智能 监控
CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集
CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集
158 0
|
存储 人工智能 编解码
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
244 0
|
机器学习/深度学习 达摩院 自然语言处理
ICASSP2023|达摩院语音实验室入选论文全况速览
近日,语音技术领域国际会议ICASSP公布了本届论文审稿结果,阿里巴巴达摩院语音实验室有14篇论文被大会收录。本次被接收的论文研究方向涵盖语音识别、语音唤醒、语音增强、说话人日志、语义理解、多模态预训练等。 ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学,语音和信号处理会议,是IEEE信号处理协会组织的年度旗舰会议。历届的ICASSP会议都备受全球信号处理领域研究学者的广泛关注,ICASSP2023将于6月4号至6月10号于希腊举办。
667 0
|
机器学习/深度学习 人工智能 算法
国产AI框架支棱起来了!这所211高校凭昇思MindSpore连发10篇顶刊/顶会论文
国产AI框架支棱起来了!这所211高校凭昇思MindSpore连发10篇顶刊/顶会论文
177 0

热门文章

最新文章