SPRIGHT：提升文本到图像模型空间一致性的数据集

2025-01-09 299

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SPRIGHT 是一个专注于空间关系的大型视觉-语言数据集，通过重新描述600万张图像，显著提升文本到图像模型的空间一致性。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

数据集特点：SPRIGHT 通过重新描述600万张图像，强调空间关系，提升文本到图像模型的空间一致性。
技术原理：使用大型语言模型生成具有空间关系的文本描述，并通过多级评估验证数据集的有效性。
应用场景：广泛应用于图像生成、虚拟现实、教育培训和科学研究等领域。

正文（附运行示例）

SPRIGHT 是什么

spright

SPRIGHT（SPatially RIGHT）是由亚利桑那州立大学、Intel 实验室、Hugging Face 和华盛顿大学等机构联合推出的一个专注于空间关系的大型视觉-语言数据集。它旨在解决现有文本到图像（T2I）模型在生成图像时空间一致性不足的问题。

通过重新描述约600万张图像，SPRIGHT 显著提高了空间关系在数据集中的比例。使用 SPRIGHT 进行微调的 T2I 模型在生成空间准确的图像方面取得了显著的性能提升。SPRIGHT 基于详细的评估和分析流程，验证了其在捕捉空间关系方面的有效性，为未来的研究提供了丰富的资源和基础。

SPRIGHT 的主要功能

增强空间关系的表示：基于重新描述图像，强调图像中的空间关系，如“左/右”、“上/下”、“前/后”等，更好地捕捉和表示图像中的空间信息。
提高T2I模型的空间一致性：用 SPRIGHT 数据集进行微调的 T2I 模型能更准确地生成符合文本提示中空间关系的图像，提高生成图像的空间一致性。
支持复杂的图像生成任务：SPRIGHT 数据集包含丰富的空间关系信息，能帮助模型更好地理解和生成包含多个对象和复杂空间布局的图像。
促进视觉-语言模型的发展：SPRIGHT 为研究和开发更先进的视觉-语言模型提供丰富的资源和基础，推动相关领域的技术进步。

SPRIGHT 的技术原理

数据集构建：
- 图像来源：SPRIGHT 数据集的图像来源于四个广泛使用的视觉-语言数据集，包括 CC-12M、Segment Anything、COCO 和 LAION-Aesthetics。
- 重新描述：使用大型语言模型（如 LLaVA-1.5-13B）对图像进行重新描述，生成具有空间关系的合成文本描述。描述包含空间关系，强调对象的相对大小和位置等细节信息。
- 空间关系的捕捉：在生成描述时，模型被指导使用特定的空间词汇（如“left/right”、“above/below”等）描述图像中的对象及其相对位置，使生成的描述能更准确地反映图像中的空间结构。
- 数据集验证：基于多级评估（如 FAITHScore、GPT-4 评估和人工标注）验证 SPRIGHT 数据集生成的描述的质量和准确性，确保数据集在捕捉空间关系方面的有效性。
模型微调：用 SPRIGHT 数据集对 T2I 模型进行微调，尤其是在包含大量对象的图像上进行训练，显著提高模型的空间一致性。微调方法让模型能更好地理解和生成符合空间关系的图像。

如何运行 SPRIGHT

1. 安装依赖

确保已安装 CUDA 和 PyTorch。可以参考 PyTorch 官方文档进行安装。

2. 推理示例

以下是一个简单的推理示例，展示如何使用 SPRIGHT 模型生成图像：

from diffusers import DiffusionPipeline
import torch 

spright_id = "SPRIGHT-T2I/spright-t2i-sd2"
pipe = DiffusionPipeline.from_pretrained(spright_id, torch_dtype=torch.float16).to("cuda")

image = pipe("A horse above a pizza").images[0]
image

3. 本地运行 Demo

你可以通过以下命令在本地运行 SPRIGHT 的 Demo：

git clone https://huggingface.co/spaces/SPRIGHT-T2I/SPRIGHT-T2I
cd SPRIGHT-T2I
python app.py

确保已安装 gradio 和其他依赖项。

资源

项目官网：https://spright-t2i.github.io/
GitHub 仓库：https://github.com/SPRIGHT-T2I/SPRIGHT
HuggingFace 仓库：https://huggingface.co/SPRIGHT
arXiv 技术论文：https://arxiv.org/pdf/2404.01197