GoT:基于思维链的语义-空间推理框架为视觉生成注入思维能力

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文探讨GoT框架如何通过语义-空间思维链方法提升图像生成的精确性与一致性。GoT(Generative Thoughts of Thinking)是一种创新架构,将显式推理机制引入图像生成与编辑领域。它通过语义推理分解文本提示,空间推理分配精确坐标,实现类人的场景构思过程。结合大型语言模型和扩散模型,GoT在复杂场景生成中表现出色,克服传统模型局限。其专用数据集包含900万样本,支持深度推理训练。技术架构融合语义-空间指导模块,确保生成图像高质量。GoT为图像生成与编辑带来技术革新,广泛应用于内容创作与教育工具开发等领域。

本文探讨GoT框架如何通过语义-空间思维链方法提升图像生成的精确性与一致性

计算机视觉领域正经历一次技术革新:一种不仅能将文本转换为图像,还能在生成过程中实施结构化推理的系统。这一系统即为GoT(Generative Thoughts of Thinking,生成式思维链)框架——一种将显式推理机制引入图像生成与编辑领域的创新架构。本文将深入分析GoT的技术原理,详细探讨其架构设计,并评估其在实际应用中的表现。

传统文本到图像系统通常采用直接映射方式,将文本提示转换为视觉内容。这种方法对于简单场景能够取得良好效果,但在处理包含多个对象或复杂空间排列的场景时存在明显局限。GoT框架通过引入"思维链"机制突破了这一限制,该机制在生成图像前会展开结构化推理过程。

此推理过程主要包含两个核心环节:

  • 语义推理:将文本提示系统性地分解为对象描述、属性特征和关系逻辑的详细表征。
  • 空间推理:为场景中的每个元素分配精确坐标,确保最终图像在空间布局上具有逻辑一致性。

通过整合这两种推理能力,GoT系统实现了类人的场景构思过程,从而生成在视觉质量和逻辑结构上均具备高水平一致性的图像。

GoT范式:基于逐步推理的图像生成方法

GoT的核心技术优势在于利用多模态语言模型的思维链推理能力,将简洁文本提示转化为结构化的生成计划。

具有语义-空间推理的生成式思维链:此图说明了如何将简单的文本提示转换为详细的推理链,其中包括语义描述和空间坐标。在左侧,输入提示被扩展为逐步计划。在中间,每个步骤都通过精确的坐标进行丰富。在右侧,最终图像反映了详细的计划。

此过程可分解为以下技术环节:

1、文本分析与扩展

系统首先对输入文本提示进行语义解析,将其扩展为结构化描述。例如,"一个具有飞行汽车的未来城市景观"这样的提示会被转换为详细的场景描述,其中不仅明确指定各类对象(建筑物、交通工具),还包括它们的属性特征(颜色、尺寸)及空间位置关系。

2、语义-空间推理

系统为每个识别的对象分配精确坐标参数。例如,系统会确定建筑物在画布中的具体位置范围(如坐标点(100,200)至(400,800))。这种语义内容与空间信息的双重映射构成了GoT框架的核心技术优势。

3、引导式图像生成

完成推理链构建后,系统将这些结构化信息传递给基于扩散模型的图像生成器。与传统生成模型不同,GoT的生成过程受到详细语义描述和空间布局的双重约束,从而确保生成图像的精确性和美学质量。

数据基础:GoT专用数据集的构建与特点

为训练具备深度推理能力的GoT模型,研究团队构建了迄今为止图像生成领域最为全面的专用数据集之一。

GoT数据集构建过程:在此图中,左侧面板显示了文本到图像的流程:简短的提示如何扩展为详细的语义和空间推理链。右侧面板侧重于图像编辑流程,突出显示了源图像和编辑指令如何被处理成连贯的逐步推理序列。

该数据集包含以下关键组成部分:

1、文本到图像生成样本

数据集包含超过900万个样本,来源于Laion-Aesthetics、JourneyDB和FLUX等高质量视觉数据库。每个样本均配有详尽的推理链注释,将简洁提示与详细描述(通常超过800字符)及空间坐标信息相关联。

2、图像编辑样本

数据集同时包含单轮和多轮编辑数据,完整记录了图像修改过程。这些数据包含明确的编辑指令、精确的边界框标注以及顺序化的推理链,详细记录了从原始图像到目标图像的转换逻辑。

数据集构建过程采用了Qwen2-VLQwen2.5等先进模型进行自动化生成、优化和验证,确保每个训练样本都具备高度的详细性和准确性。

技术架构:统一的推理与生成框架

GoT的技术优势源于其创新架构,该架构有效结合了大型语言模型的推理能力与扩散模型的图像合成精度。

具有语义-空间指导的GoT框架: 在此图中,左侧部分显示了整体框架,其中MLLM生成推理链并将其馈送到扩散模型。右侧部分放大了SSGM,显示了如何组合语义、空间和参考指导以生成高保真图像。

框架的核心组件包括:

1、语义-空间多模态语言模型(MLLM)

基础模型:
GoT采用Qwen2.5-VL-3B作为基础模型,该模型在视觉和文本数据的综合理解方面表现卓越。

推理链生成:
MLLM对每个文本提示进行处理,生成包含以下内容的完整推理链:

  • 语义标记:对象的详细描述、属性特征及关系逻辑。
  • 空间坐标:以标准化格式(如(x1,y1),(x2,y2))表示的位置信息,用于定义各元素在图像中的精确位置。

双重损失监督:
模型训练过程采用交叉熵损失(用于生成推理标记)与扩散均方误差损失(用于保证空间精度)的组合优化方式。

2、语义-空间指导模块(SSGM)

多重指导信号融合:
SSGM整合了三种关键指导信号:

  • 语义指导(Gt):从推理链中提取的上下文和属性信息。
  • 空间指导(Gs):从坐标数据中获取的精确位置信息。
  • 参考图像指导(Gr):在编辑任务中特别重要,用于保持与原始图像的风格一致性。

无分类器指导技术:
在扩散过程中,系统采用上述指导信号的加权组合来优化生成图像。这确保图像合成过程同时受到语义概念和空间布局的双重约束。

3、端到端训练方法

预训练与微调策略:
模型首先在LAHR-GoT和JourneyDB-GoT等大型数据集上进行广泛预训练,随后在专业编辑数据集上进行定向微调。这种两阶段训练策略确保模型同时掌握通用视觉生成能力和精细编辑技能。

参数高效优化:
训练过程采用低秩自适应(LoRA)等技术对MLLM进行微调,在保持模型性能的同时提高计算效率,使模型保持轻量化但功能强大。

总结

GoT:释放多模态大型语言模型在视觉生成和编辑中的推理能力代表了图像合成领域的技术范式转变。通过引入集成语义与空间推理的结构化思维链,GoT框架成功克服了传统文本到图像模型的内在局限。其完备的训练数据集、创新的架构设计和先进的指导机制共同确保了生成图像在技术精确性和视觉表现力方面的卓越品质。

该框架不仅从根本上改变了图像生成与编辑的技术路径,还为多个应用领域开辟了新的可能性——从专业内容创作到教育工具开发。GoT技术框架是人工智能领域的重要进展,展示了结合类人推理与机器智能如何能够创造既具技术突破性又具普适实用性的解决方案。

论文:https://avoid.overfit.cn/post/571c15312be943f9bec7ccdd167ea244

目录
打赏
0
4
4
0
533
分享
相关文章
生成模型不适合处理视频,AI得在抽象空间中进行预测
生成模型不适合处理视频,AI得在抽象空间中进行预测
305 2
生成模型不适合处理视频,AI得在抽象空间中进行预测
|
10月前
GPT-4 vs. ChatGPT:19个弱项问题(多步逻辑推理、概念间接关联)的横向对比
GPT-4在逻辑推理和概念关联上的准确率提升至100%,超越ChatGPT,其智力可能超过95%的人。在逻辑和多模态理解上有显著进步,但数数和某些逻辑推理仍是挑战。擅长处理成本计算和复杂情境,能建立概念间的间接关联,如遗忘与老龄化的联系。在数学和物理领域表现出色,但处理复杂间接关系和抽象概念时仍有局限。总体而言,GPT-4展现出超越人类智能的潜力,但仍需面对认知任务的挑战。![GPT-4进步示意](https://developer.aliyun.com/profile/oesouji3mdrog/highScore_1?spm=a2c6h.132)查看GPT-5教程,可访问我的个人主页介绍。
228 0
GPT-4 vs. ChatGPT:19个弱项问题(多步逻辑推理、概念间接关联)的横向对比
|
4月前
长上下文能取代RAG吗?
【10月更文挑战第28天】本文探讨了检索增强生成(RAG)和长上下文(LC)在大型语言模型(LLMs)中的应用。RAG通过检索外部信息扩展LLM的知识范围,而LC则直接处理长文本。研究发现,LC在性能上通常优于RAG,但在处理超过模型上下文窗口的文本时,RAG表现出优势。此外,RAG在成本上更具优势。基于此,作者提出了Self-Route方法,结合RAG和LC的优点,实现性能和成本的最佳平衡。
72 7
Meta-CoT:通过元链式思考增强大型语言模型的推理能力
大型语言模型(LLMs)在处理复杂推理任务时面临挑战,尤其在高级数学和抽象问题解决方面表现不足。为弥补这一差距,研究人员引入了元链式思考(Meta-CoT),该方法通过引入搜索、验证和回溯机制,使LLMs能够模拟人类的系统2思维,实现迭代和审慎推理。实验证明,Meta-CoT显著提升了LLMs在复杂任务中的表现,推动了AI从模式识别向更深层次的逻辑推理转变。
165 16
Meta-CoT:通过元链式思考增强大型语言模型的推理能力
Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法
Coconut提出了一种新的大语言模型推理范式,通过在潜在空间中运算,利用隐藏层生成的连续思维状态取代传统文本推理。该方法采用广度优先搜索探索多条路径,避免单一路径局限,显著提升逻辑任务性能并减少token消耗。 Coconut结合“语言模式”和“潜在模式”动态切换,通过多阶段课程学习优化推理能力,在复杂规划任务中表现卓越,尤其在GSM8k和ProsQA等任务中优于传统模型。实验表明,Coconut能有效捕获中间变量,减少幻觉错误,具备更强的推理规划能力。
130 2
Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
DGLM(Diffusion Guided Language Modeling)是一种新型框架,结合了自回归模型的流畅性和扩散模型的灵活性,解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案,并使用轻量级提示生成器将嵌入转化为软提示,引导自回归解码器生成文本。该方法无需微调模型权重,易于控制新属性,并在多个基准数据集上表现出色。实验结果显示,DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法,为可控文本生成提供了新的方向。
91 10
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
通过RAG增强大模型回答原本无法回答的问题
RAG(检索增强生成)是一种结合信息检索和文本生成技术的方法,旨在提升大规模语言模型处理特定问题的能力。通过先从大量文档中检索相关信息,再利用这些信息生成更准确的答案,RAG特别适用于需要最新数据或专业知识的场景,如医疗咨询、法律建议等。此方法不仅提高了答案的质量和准确性,还增强了系统的可扩展性和适应性。随着技术进步,RAG有望在更多领域发挥重要作用。
83 2
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
267 1
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
思维链不存在了?纽约大学最新研究:推理步骤可省略
【5月更文挑战第26天】纽约大学研究发现,Transformer模型在处理复杂任务时可能不依赖思维链,而是通过填充符号实现计算。实验显示,填充符号能提升模型在特定任务中的准确率,扩展其表达能力,尤其是在处理嵌套量词问题时。然而,模型有效利用填充符号的学习是个挑战,因填充符号的隐藏层表示不易判断。研究提示,Transformer模型可能通过填充符号并行化解决TC0类问题,但可能使决策过程变得不透明,影响可解释性。该研究为优化语言模型提供了新思路,但也提出了可解释性与计算效率之间平衡的议题。[链接](https://arxiv.org/pdf/2404.15758)
96 1