更高清!谷歌推出生成文本到图像的新框架 TReCS,效果超过AttGAN

简介: 谷歌研究人员推出新框架 TRECS,生成的图像更逼真,更符合文字的描述。

微信图片_20220112130153.png 


近年来,基于生成对抗性网络(GAN)的深层神经网络已经大幅提高了端到端可训练的照片式文本到图像的生成结果。许多方法也使用中间场景图(intermediate scene graph)表示来改进图像合成的效果。

 

通过基于对话交互的方法允许用户提供指令来逐步改进和调整生成的场景:通过指定背景中对象的相对位置,为用户提供了更大的控制权。然而,这种方法所使用的语言是有限制的,所产生的图像仅限于3D合成可视化或者卡通。

 

本月初,OpenAI官宣了一个基于Transformer的语言模型DALL-E,使用了GPT-3的120亿参数版本,引起了不小的轰动。

 

根据文字提示,DALL-E生成的图像可以像在现实世界中拍摄的一样。

 

微信图片_20220112130155.gif

 

DALL-E同时接收文本和图像作为单一数据流,包含多达1280个token,并使用最大似然估计来进行训练,以一个接一个地生成所有的token。这个训练过程不仅允许DALL-E可以从头开始生成图像,而且还可以重新生成现有图像的任何矩形区域,与文本提示内容基本一致。

 

谷歌当然不甘落后。

 

最近,谷歌研究院的成员们发表了一篇新论文:以细粒度用户注意力为基础的文本到图像生成.

 

微信图片_20220112130157.png

 

作者在论文中提出了一个新的框架:Tag-Retrieve-Compose Synthesize system (TReCS)。该方法通过改进语言对图像元素的唤醒方式和痕迹对图像元素位置的告知方式,显著提高了图像生成过程。该系统使用了超过250亿个样本来进行训练,并有可能处理103种语言。

 

这篇论文的主要贡献在于:

 

1.第一次展示了在非常困难的文本到图像合成任务中的能力(与之前关于更短的文本任务相比)。

 

2.提出了TRECS,这是一种序列生成模型,它使用最先进的语言和视觉技术生成与语言和空间鼠标轨迹一致的高质量图像。

 

3.进行了自动和人工评估,以证明TRECS生成的图像质量比现有技术有所提高。通过广泛的研究,确定了TRECS管道的关键组成部分,这对于基于用户注意力的文本到图像生成任务至关重要。

 

具体效果如下:

 

微信图片_20220112130158.png

 

或是这样:

 

微信图片_20220112130200.png

 

TRECS的亮点在于可以同时利用文本和鼠标痕迹。


相比对于其他策略,尤其是那些需要场景图的策略,说话时用鼠标指着是一种更自然的方式,供用户在图像合成过程中指示其意图。

 

微信图片_20220112130202.png

 

大致流程如下:

 

1.新的框架利用可控的鼠标轨迹作为细粒度的视觉基础来生成给定用户叙述的高质量图像,标记器用于预测短语中每个单词的对象标记。

 

2. 文本到图像的双重编码器用语义相关的mask掩码来检索图像。对于每个跟踪序列,选择一个mask来最大化空间重叠,克服了真实文本到对象的信息和更好的描述。

 

3. 选定的mask按照跟踪顺序组合,并为背景和前景对象分别绘制画布。前景掩码被置于背景掩码之上,以创建一个完整的场景分割。

 

4. 最后,将整个分割过程输入到掩码到图像的转换模型中,合成出真实感图像。

 

在评价方面,无论是自动判断还是人工评估,该系统都优于目前 SOTA 的文本图像生成技术。从日常语言中翻译出来的杂乱的叙事文本中生成真实可控的照片,显示了这种方法的可行性。同时TReCS 系统也解释了冗长而复杂的文本描述来进行文本-图像生成的复杂性。实验结果表明,该方法可以有效地生成真实感强的文本图像。

 

目前该方法还存在一定的限制,即:缺乏合适的评价指标来定量测量生成的图像的质量。现有的度量方法不能合理地反映基本真实图像和机器生成的真实图像之间的语义相似性。

 

不过,在未来的几年里,这个想法或许可以用来支持各种应用程序,并提供一个友好的人机界面。例如,可以帮助艺术家创建原型,从机器生成的照片中获得洞察力,并生成逼真的图像。此外,它可以用来设计 human-in-the-loop 的评价系统,以优化网络。

 

论文原文链接:

https://arxiv.org/pdf/2011.03775.pdf


相关文章
|
SQL 关系型数据库 MySQL
mysql 数据库 增删改查 基本操作
mysql 数据库 增删改查 基本操作
|
SQL 开发框架 .NET
sql 不同where下的统计
sql 不同where下的统计
162 0
|
XML Java 数据格式
【框架】[Spring]AOP拦截-三种方式实现自动代理(1)
【框架】[Spring]AOP拦截-三种方式实现自动代理
296 0
【框架】[Spring]AOP拦截-三种方式实现自动代理(1)
|
Java 关系型数据库 MySQL
Mybatis(七) mybatis的逆向工程的配置详解
 还是觉得看书学习有意思~嘿嘿。今天把mybatis给结束掉。 
399 0
|
16天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
29999 102
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
5天前
|
应用服务中间件 API 网络安全
3分钟汉化OpenClaw,使用Docker快速部署启动OpenClaw(Clawdbot)教程
2026年全新推出的OpenClaw汉化版,是基于Claude API开发的智能对话系统本土化优化版本,解决了原版英文界面的使用壁垒,实现了界面、文档、指令的全中文适配。该版本采用Docker容器化部署方案,开箱即用,支持Linux、macOS、Windows全平台运行,适配个人、企业、生产等多种使用场景,同时具备灵活的配置选项和强大的扩展能力。本文将从项目简介、部署前准备、快速部署、详细配置、问题排查、监控维护等方面,提供完整的部署与使用指南,文中包含实操代码命令,确保不同技术水平的用户都能快速落地使用。
4277 0
|
11天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6060 16
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
10天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4293 9
|
12天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5358 17
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
12天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
5837 5