SPRIGHT:提升文本到图像模型空间一致性的数据集

简介: SPRIGHT 是一个专注于空间关系的大型视觉-语言数据集,通过重新描述600万张图像,显著提升文本到图像模型的空间一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 数据集特点:SPRIGHT 通过重新描述600万张图像,强调空间关系,提升文本到图像模型的空间一致性。
  2. 技术原理:使用大型语言模型生成具有空间关系的文本描述,并通过多级评估验证数据集的有效性。
  3. 应用场景:广泛应用于图像生成、虚拟现实、教育培训和科学研究等领域。

正文(附运行示例)

SPRIGHT 是什么

spright

SPRIGHT(SPatially RIGHT)是由亚利桑那州立大学、Intel 实验室、Hugging Face 和华盛顿大学等机构联合推出的一个专注于空间关系的大型视觉-语言数据集。它旨在解决现有文本到图像(T2I)模型在生成图像时空间一致性不足的问题。

通过重新描述约600万张图像,SPRIGHT 显著提高了空间关系在数据集中的比例。使用 SPRIGHT 进行微调的 T2I 模型在生成空间准确的图像方面取得了显著的性能提升。SPRIGHT 基于详细的评估和分析流程,验证了其在捕捉空间关系方面的有效性,为未来的研究提供了丰富的资源和基础。

SPRIGHT 的主要功能

  • 增强空间关系的表示:基于重新描述图像,强调图像中的空间关系,如“左/右”、“上/下”、“前/后”等,更好地捕捉和表示图像中的空间信息。
  • 提高T2I模型的空间一致性:用 SPRIGHT 数据集进行微调的 T2I 模型能更准确地生成符合文本提示中空间关系的图像,提高生成图像的空间一致性。
  • 支持复杂的图像生成任务:SPRIGHT 数据集包含丰富的空间关系信息,能帮助模型更好地理解和生成包含多个对象和复杂空间布局的图像。
  • 促进视觉-语言模型的发展:SPRIGHT 为研究和开发更先进的视觉-语言模型提供丰富的资源和基础,推动相关领域的技术进步。

SPRIGHT 的技术原理

  • 数据集构建
    • 图像来源:SPRIGHT 数据集的图像来源于四个广泛使用的视觉-语言数据集,包括 CC-12M、Segment Anything、COCO 和 LAION-Aesthetics。
    • 重新描述:使用大型语言模型(如 LLaVA-1.5-13B)对图像进行重新描述,生成具有空间关系的合成文本描述。描述包含空间关系,强调对象的相对大小和位置等细节信息。
    • 空间关系的捕捉:在生成描述时,模型被指导使用特定的空间词汇(如“left/right”、“above/below”等)描述图像中的对象及其相对位置,使生成的描述能更准确地反映图像中的空间结构。
    • 数据集验证:基于多级评估(如 FAITHScore、GPT-4 评估和人工标注)验证 SPRIGHT 数据集生成的描述的质量和准确性,确保数据集在捕捉空间关系方面的有效性。
  • 模型微调:用 SPRIGHT 数据集对 T2I 模型进行微调,尤其是在包含大量对象的图像上进行训练,显著提高模型的空间一致性。微调方法让模型能更好地理解和生成符合空间关系的图像。

如何运行 SPRIGHT

1. 安装依赖

确保已安装 CUDA 和 PyTorch。可以参考 PyTorch 官方文档进行安装。

2. 推理示例

以下是一个简单的推理示例,展示如何使用 SPRIGHT 模型生成图像:

from diffusers import DiffusionPipeline
import torch 

spright_id = "SPRIGHT-T2I/spright-t2i-sd2"
pipe = DiffusionPipeline.from_pretrained(spright_id, torch_dtype=torch.float16).to("cuda")

image = pipe("A horse above a pizza").images[0]
image

3. 本地运行 Demo

你可以通过以下命令在本地运行 SPRIGHT 的 Demo:

git clone https://huggingface.co/spaces/SPRIGHT-T2I/SPRIGHT-T2I
cd SPRIGHT-T2I
python app.py

确保已安装 gradio 和其他依赖项。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
Java TensorFlow 算法框架/工具
Android 中集成 TensorFlow Lite图片识别
Android 中集成 TensorFlow Lite图片识别
299 0
|
算法 Java 调度
混合算法(GA+TS)求解作业车间调度问题(JSP)-禁忌搜索部分
混合算法(GA+TS)求解作业车间调度问题(JSP)-禁忌搜索部分
705 0
混合算法(GA+TS)求解作业车间调度问题(JSP)-禁忌搜索部分
|
6月前
|
前端开发 JavaScript 开发工具
前端开发基础:从零开启网页制作之旅
本文围绕前端开发基础展开,介绍了构建网页的三大核心技术:HTML(定义页面结构,具语义化特性)、CSS(控制视觉样式,含选择器、盒模型等核心概念)、JavaScript(实现动态交互,可操作 DOM),还提及 VS Code、浏览器开发者工具、Git 等必备工具,给出 “先基础后框架” 的学习路径与 MDN Web Docs 等资源,强调实践的重要性,帮助初学者掌握前端基础,为后续进阶奠基。
|
3月前
|
人工智能 自动驾驶 计算机视觉
CVPR 2024 目标检测!开放词汇
YOLO-World是CVPR 2024提出的一种实时开放词汇目标检测模型,首次将YOLO的高速特性与开放词汇识别能力结合。它无需微调即可通过文本提示检测任意物体,支持零样本推理,兼具高精度与灵活性,适用于机器人、自动驾驶等实时感知场景,标志着目标检测迈向通用化新阶段。
260 0
CVPR 2024 目标检测!开放词汇
|
存储 人工智能 关系型数据库
10个行锁、死锁案例⭐️24张加锁分析图🚀彻底搞懂Innodb行锁加锁规则!
10个行锁、死锁案例⭐️24张加锁分析图🚀彻底搞懂Innodb行锁加锁规则!
|
机器学习/深度学习 人工智能 算法
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
RLCM 是康奈尔大学推出的基于强化学习的文本到图像生成模型优化框架,支持快速训练与推理,能够根据任务特定奖励函数生成高质量图像。
262 12
RLCM:康奈尔大学推出文本到图像一致性模型优化框架,支持快速生成与任务特定奖励优化
|
Web App开发 资源调度 安全
现代操作系统的演变与未来发展
在信息技术快速发展的背景下,操作系统作为计算机系统的核心组成部分,经历了从单一功能到多样化、高效化的演变。本文将探讨操作系统的历史演变、现代操作系统的特征与功能,以及未来可能的发展趋势,旨在深入理解操作系统在技术革新中的关键作用。【7月更文挑战第1天】
388 3
LabVIEW 在运行时初始化数组并允许用户编辑值
LabVIEW 在运行时初始化数组并允许用户编辑值
493 0
|
存储 编解码 API
【图像文本化】Base64编解码OpenCV4中 Mat 对象
【图像文本化】Base64编解码OpenCV4中 Mat 对象
386 0
|
机器学习/深度学习 人工智能 搜索推荐
谈谈内容创作中的UGC、PGC、AIGC,在创意设计领域的应用与进化
在数字化时代,内容创作经历了从UGC(用户生成内容)到PGC(专业生产内容),再到AIGC(人工智能生成内容)的转变。UGC打破了传统边界,让每个人都能参与创作,但质量参差不齐;PGC代表专业水准,提供高质量内容,但成本高且制作周期长;AIGC借助AI技术大幅提升效率,实现个性化定制,但面临版权、伦理和情感表达的挑战。Adobe国际认证等专业资格成为了衡量设计师能力的新标准,帮助设计师适应这一变革并引领创新。三种模式相互补充,共同推动创意设计领域不断发展。

热门文章

最新文章