GoT:基于思维链的语义-空间推理框架为视觉生成注入思维能力

简介: 本文探讨GoT框架如何通过语义-空间思维链方法提升图像生成的精确性与一致性。GoT(Generative Thoughts of Thinking)是一种创新架构,将显式推理机制引入图像生成与编辑领域。它通过语义推理分解文本提示,空间推理分配精确坐标,实现类人的场景构思过程。结合大型语言模型和扩散模型,GoT在复杂场景生成中表现出色,克服传统模型局限。其专用数据集包含900万样本,支持深度推理训练。技术架构融合语义-空间指导模块,确保生成图像高质量。GoT为图像生成与编辑带来技术革新,广泛应用于内容创作与教育工具开发等领域。

本文探讨GoT框架如何通过语义-空间思维链方法提升图像生成的精确性与一致性

计算机视觉领域正经历一次技术革新:一种不仅能将文本转换为图像,还能在生成过程中实施结构化推理的系统。这一系统即为GoT(Generative Thoughts of Thinking,生成式思维链)框架——一种将显式推理机制引入图像生成与编辑领域的创新架构。本文将深入分析GoT的技术原理,详细探讨其架构设计,并评估其在实际应用中的表现。

传统文本到图像系统通常采用直接映射方式,将文本提示转换为视觉内容。这种方法对于简单场景能够取得良好效果,但在处理包含多个对象或复杂空间排列的场景时存在明显局限。GoT框架通过引入"思维链"机制突破了这一限制,该机制在生成图像前会展开结构化推理过程。

此推理过程主要包含两个核心环节:

  • 语义推理:将文本提示系统性地分解为对象描述、属性特征和关系逻辑的详细表征。
  • 空间推理:为场景中的每个元素分配精确坐标,确保最终图像在空间布局上具有逻辑一致性。

通过整合这两种推理能力,GoT系统实现了类人的场景构思过程,从而生成在视觉质量和逻辑结构上均具备高水平一致性的图像。

GoT范式:基于逐步推理的图像生成方法

GoT的核心技术优势在于利用多模态语言模型的思维链推理能力,将简洁文本提示转化为结构化的生成计划。

具有语义-空间推理的生成式思维链:此图说明了如何将简单的文本提示转换为详细的推理链,其中包括语义描述和空间坐标。在左侧,输入提示被扩展为逐步计划。在中间,每个步骤都通过精确的坐标进行丰富。在右侧,最终图像反映了详细的计划。

此过程可分解为以下技术环节:

1、文本分析与扩展

系统首先对输入文本提示进行语义解析,将其扩展为结构化描述。例如,"一个具有飞行汽车的未来城市景观"这样的提示会被转换为详细的场景描述,其中不仅明确指定各类对象(建筑物、交通工具),还包括它们的属性特征(颜色、尺寸)及空间位置关系。

2、语义-空间推理

系统为每个识别的对象分配精确坐标参数。例如,系统会确定建筑物在画布中的具体位置范围(如坐标点(100,200)至(400,800))。这种语义内容与空间信息的双重映射构成了GoT框架的核心技术优势。

3、引导式图像生成

完成推理链构建后,系统将这些结构化信息传递给基于扩散模型的图像生成器。与传统生成模型不同,GoT的生成过程受到详细语义描述和空间布局的双重约束,从而确保生成图像的精确性和美学质量。

数据基础:GoT专用数据集的构建与特点

为训练具备深度推理能力的GoT模型,研究团队构建了迄今为止图像生成领域最为全面的专用数据集之一。

GoT数据集构建过程:在此图中,左侧面板显示了文本到图像的流程:简短的提示如何扩展为详细的语义和空间推理链。右侧面板侧重于图像编辑流程,突出显示了源图像和编辑指令如何被处理成连贯的逐步推理序列。

该数据集包含以下关键组成部分:

1、文本到图像生成样本

数据集包含超过900万个样本,来源于Laion-Aesthetics、JourneyDB和FLUX等高质量视觉数据库。每个样本均配有详尽的推理链注释,将简洁提示与详细描述(通常超过800字符)及空间坐标信息相关联。

2、图像编辑样本

数据集同时包含单轮和多轮编辑数据,完整记录了图像修改过程。这些数据包含明确的编辑指令、精确的边界框标注以及顺序化的推理链,详细记录了从原始图像到目标图像的转换逻辑。

数据集构建过程采用了Qwen2-VLQwen2.5等先进模型进行自动化生成、优化和验证,确保每个训练样本都具备高度的详细性和准确性。

技术架构:统一的推理与生成框架

GoT的技术优势源于其创新架构,该架构有效结合了大型语言模型的推理能力与扩散模型的图像合成精度。

具有语义-空间指导的GoT框架: 在此图中,左侧部分显示了整体框架,其中MLLM生成推理链并将其馈送到扩散模型。右侧部分放大了SSGM,显示了如何组合语义、空间和参考指导以生成高保真图像。

框架的核心组件包括:

1、语义-空间多模态语言模型(MLLM)

基础模型:
GoT采用Qwen2.5-VL-3B作为基础模型,该模型在视觉和文本数据的综合理解方面表现卓越。

推理链生成:
MLLM对每个文本提示进行处理,生成包含以下内容的完整推理链:

  • 语义标记:对象的详细描述、属性特征及关系逻辑。
  • 空间坐标:以标准化格式(如(x1,y1),(x2,y2))表示的位置信息,用于定义各元素在图像中的精确位置。

双重损失监督:
模型训练过程采用交叉熵损失(用于生成推理标记)与扩散均方误差损失(用于保证空间精度)的组合优化方式。

2、语义-空间指导模块(SSGM)

多重指导信号融合:
SSGM整合了三种关键指导信号:

  • 语义指导(Gt):从推理链中提取的上下文和属性信息。
  • 空间指导(Gs):从坐标数据中获取的精确位置信息。
  • 参考图像指导(Gr):在编辑任务中特别重要,用于保持与原始图像的风格一致性。

无分类器指导技术:
在扩散过程中,系统采用上述指导信号的加权组合来优化生成图像。这确保图像合成过程同时受到语义概念和空间布局的双重约束。

3、端到端训练方法

预训练与微调策略:
模型首先在LAHR-GoT和JourneyDB-GoT等大型数据集上进行广泛预训练,随后在专业编辑数据集上进行定向微调。这种两阶段训练策略确保模型同时掌握通用视觉生成能力和精细编辑技能。

参数高效优化:
训练过程采用低秩自适应(LoRA)等技术对MLLM进行微调,在保持模型性能的同时提高计算效率,使模型保持轻量化但功能强大。

总结

GoT:释放多模态大型语言模型在视觉生成和编辑中的推理能力代表了图像合成领域的技术范式转变。通过引入集成语义与空间推理的结构化思维链,GoT框架成功克服了传统文本到图像模型的内在局限。其完备的训练数据集、创新的架构设计和先进的指导机制共同确保了生成图像在技术精确性和视觉表现力方面的卓越品质。

该框架不仅从根本上改变了图像生成与编辑的技术路径,还为多个应用领域开辟了新的可能性——从专业内容创作到教育工具开发。GoT技术框架是人工智能领域的重要进展,展示了结合类人推理与机器智能如何能够创造既具技术突破性又具普适实用性的解决方案。

论文:https://avoid.overfit.cn/post/571c15312be943f9bec7ccdd167ea244

目录
相关文章
|
人工智能 测试技术 人机交互
深入浅出智能工作流(Agentic Workflow)|技术干货
著名AI学者、斯坦福大学教授吴恩达提出AI Agent的四种设计方式后,Agentic Workflow(智能体工作流)在全球范围内迅速走红,多个行业纷纷实践其应用,并推动了新的Agentic AI探索热潮。吴恩达总结了Agent设计的四种模式:自我反思、工具调用、规划设计及多智能体协作。前两者较普及,后两者则为智能体使用模式从单一大模型向多智能体协同配合完成业务流程的转变奠定了基础。
7336 3
|
8月前
|
测试技术
字节Seed开源统一多模态理解和生成模型 BAGEL!
近期,字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。
646 3
|
11月前
|
数据采集 存储 机器学习/深度学习
最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案
本文分享了两种构建高质量AI代码数据集的解决方案。第一种是传统方式,结合动态住宅代理与手动处理,通过分页读取和数据清洗生成结构化数据;第二种是利用Web Scraper API工具,实现自定义配置、自动化抓取及云端存储。两种方法各具优势,适合不同需求和技术水平的团队。同时,文章还提供了专属优惠福利,助力提升数据采集效率,为AI大模型训练提供支持。
383 5
最新AI大模型数据集解决方案:分享两种AI高质量代码数据集生产方案
|
机器学习/深度学习 人工智能 文字识别
ultralytics YOLO11 全新发布!(原理介绍+代码详见+结构框图)
本文详细介绍YOLO11,包括其全新特性、代码实现及结构框图,并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进,如C3k2、C2PSA模块和更轻量级的分类检测头,显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别,并展示了训练过程和结果的可视化
22836 0
|
机器学习/深度学习 数据可视化 Swift
CAS-ViT:用于高效移动应用的卷积加法自注意力视觉Transformer
这是8月份再arxiv上发布的新论文,我们下面一起来介绍这篇论文的重要贡献
653 10
CAS-ViT:用于高效移动应用的卷积加法自注意力视觉Transformer
webpack——通过webpack-bundle-analyzer分析项目包占比情况
webpack——通过webpack-bundle-analyzer分析项目包占比情况
228 2
webpack——通过webpack-bundle-analyzer分析项目包占比情况
|
机器学习/深度学习 PyTorch TensorFlow
TensorFlow和PyTorch的实际应用比较
TensorFlow和PyTorch的实际应用比较
465 2
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在情感识别方面有哪些具体应用
AI在元宇宙学习中扮演关键角色,通过数据收集分析用户习惯、兴趣,提供个性化推荐。情感识别调整教学策略,智能评估反馈学习效果,实时互动解答问题,自适应学习系统匹配个体需求。同时,注重隐私安全保护,打造高效、精准、个性化的学习环境。
基于simulink的模糊PID控制器建模与仿真,并对比PID控制器
在MATLAB 2022a的Simulink中,构建了模糊PID和标准PID控制器模型,对比两者控制输出。模糊控制器采用模糊逻辑处理误差和误差变化率,通过模糊化、推理和去模糊化调整PID参数。模糊PID能更好地应对非线性和不确定性,而标准PID虽然简单易实现,但对复杂系统控制可能不足。通过仿真分析,可选择适合的控制器类型。