Leffa：Meta AI 开源精确控制人物外观和姿势的图像生成框架，在生成穿着的同时保持人物特征

2024-12-17 7

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，图像资源包5000点

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，视频资源包5000点

简介： Leffa 是 Meta 开源的图像生成框架，通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本，适用于多种扩散模型，展现了良好的模型无关性和泛化能力。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

框架介绍：Leffa 是 Meta AI 推出的可控人物图像生成框架，基于注意力机制和流场学习。
主要功能：支持外观控制、姿势控制、细节保留和图像质量维持。
技术原理：通过正则化损失函数和渐进式训练优化模型性能，适用于多种扩散模型。

正文（附运行示例）

Leffa 是什么

公众号: 蚝油菜花 - Leffa

Leffa（Learning Flow Fields in Attention）是 Meta AI 推出的用于可控人物图像生成的框架。它基于在注意力机制中引入流场学习，能够精确控制人物的外观和姿势。Leffa 通过正则化损失函数指导模型在训练时让目标查询聚焦于参考图像中的正确区域，从而减少细节失真，提升图像质量。

Leffa 不增加额外参数和推理成本，且适用于多种扩散模型，展现了良好的模型无关性和泛化能力。

Leffa 的主要功能

外观控制（虚拟试穿）：根据参考图像生成穿着该服装的人物图像，保持人物原有特征不变。
姿势控制（姿势转移）：将一个人物的姿势从一个图像转移到另一个图像，保持人物的外观细节。
细节保留：减少生成图像中的细节失真，如纹理、文字和标志等。
质量维持：在控制细节的同时，保持生成图像的整体高质量。

Leffa 的技术原理

注意力机制：基于注意力机制，用注意力层将目标图像与参考图像关联起来。
流场学习：通过学习注意力层中的流场，显式指导目标查询关注于参考键的正确区域。
正则化损失：在注意力图上施加正则化损失，将参考图像变形以更紧密地与目标图像对齐。
空间一致性：基于转换注意力图到流场，用网格采样操作确保目标查询与参考图像之间的空间一致性。
模型无关性：作为正则化损失函数，集成到不同的扩散模型中，无需额外参数或复杂的训练技术。
渐进式训练：在训练的最后阶段应用，避免早期性能退化，优化模型性能。

如何运行 Leffa

环境配置

首先，创建一个 Conda 环境并安装所需的依赖包：

conda create -n leffa python==3.10
conda activate leffa
cd Leffa
pip install -r requirements.txt

运行 Gradio App

在本地运行 Gradio 应用：

python app.py

资源

项目官网：https://github.com/franciszzj/Leffa
GitHub 仓库：https://github.com/franciszzj/Leffa
HuggingFace 模型库：https://huggingface.co/franciszzj/Leffa
arXiv 技术论文：https://arxiv.org/pdf/2412.08486
在线体验 Demo：https://huggingface.co/spaces/franciszzj/Leffa