三种能有效融合文本和图像信息的方法——特征拼接、跨模态注意、条件批量归一化

简介: 三种能有效融合文本和图像信息的方法——特征拼接、跨模态注意、条件批量归一化

当前T2I模型的一大限制就是如何有效地融合文本和图像信息?

目前常用的有特征拼接(features concatenation)、跨模态注意(cross-modal attention)和条件批量归一化(CBN,Condition Batch Normalization)

一、特征拼接

特征拼接就是简单的将文本模态进行简单线性变换,转换成图像模态需要的特征向量尺寸,然后将文本特征向量与图像特征向量进行拼接,在StackGANStackGAN++中用到过。

这种方法其实既没有充分利用到文本信息,也没有有效实现文本图像的信息融合。

二、跨模态注意

随着注意力机制的发展,跨模态注意力可以为图像的每个子区域计算一个单词的上下文向量,其首先在AttnGAN中得到应用,AttnGAN在单词的水平上实现了单词与图片中的某个子区域的映射,自动选择字级条件以生成图像的不同子区域。

在生成图像时,匹配图像子区域和最相关的单词,对输入图片的每一部分,匹配最相关的单词向量来约束其生成,增加图像的细粒度细节。如在AttnGAN中使用如下公式计算跨模态注意力:

image.png

其中image.png

而β(i,j)表示    第i个单词对生成图像的第j个区域的重要程度。

然而,随着图像尺寸的增大,计算成本迅速增加。此外,自然语言描述采用高级语义,而图像的一个子区域相对较低。因此,它无法很好地探索高级语义来控制图像生成过程,尤其是对于具有多个对象的复杂图像效果很差。

三、条件批量归一化(CBN)

全称为:Condition Batch Normalization,是SD-GAN首先在文本生成图像中进行应用的,将其看作是在一般的特征图上的缩放和移位操作的一种特例,它的表示形式如下所示:

image.png

原理是:利用自然语言描述中的语言线索(linguistic cues)来调节条件批处理归一化,主要目的是增强生成网络特征图的视觉语义嵌入。它使语言嵌入能够通过上下缩放、否定或关闭等方式操纵视觉特征图,其可以从输入中获取到语句级和词级两个层次上的语言线索。

DF-GAN中,其采用了一系列叠加仿射变换按通道缩放和移动图像特征,也可以认为是一种条件批量归一化。

SSA-GAN中,其将CBN进行了进一步的发展,作者提出的语义空间条件批量规范化(S-SCBN)将掩码预测器输出的掩码图添加到SCBN中作为空间条件,

相关文章
|
机器学习/深度学习 存储 监控
yolov5单目测距+速度测量+目标跟踪(算法介绍和代码)
yolov5单目测距+速度测量+目标跟踪(算法介绍和代码)
|
5月前
|
算法 安全 量子技术
“RSA还能撑多久?”——聊聊量子计算下密码学的危与机
“RSA还能撑多久?”——聊聊量子计算下密码学的危与机
338 0
|
7月前
|
缓存 JSON 前端开发
最受欢迎的三方库之harmony-utils
harmony-utils 是一款功能丰富且易于使用的 HarmonyOS 工具库,涵盖 APP、设备、屏幕、授权、通知、文件操作、加解密等多种常用功能,帮助开发者高效构建鸿蒙应用。体积小巧(仅约 130KB),性能优越,适用于 OpenHarmony API 12 及以上版本。
356 0
|
10月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
移动开发 前端开发 JavaScript
H5对话框元素<dialog> 讲解
元素定义对话框或窗口,如点击按钮弹出的对话框、警告提示等。通过 `open` 属性控制可见性,`showModal()` 方法展示模态框。支持基本样式调整,如背景颜色和边框。兼容性详情参见 MDN 文档。
307 4
H5对话框元素<dialog> 讲解
|
算法 Linux 调度
Linux源码阅读笔记03-调度器及CFS调度器
Linux源码阅读笔记03-调度器及CFS调度器
|
机器学习/深度学习 Serverless 语音技术
多模态特征融合:图像、语音、文本如何转为特征向量并进行分类
多模态特征融合:图像、语音、文本如何转为特征向量并进行分类
2406 0
|
人工智能 物联网 Windows
中文多模态医学大模型智能分析X光片,实现影像诊断,完成医生问诊多轮对话
中文多模态医学大模型智能分析X光片,实现影像诊断,完成医生问诊多轮对话
中文多模态医学大模型智能分析X光片,实现影像诊断,完成医生问诊多轮对话
|
机器学习/深度学习 数据采集 算法
【Python机器学习】PCA降维算法讲解及二维、高维数据可视化降维实战(附源码 超详细)
【Python机器学习】PCA降维算法讲解及二维、高维数据可视化降维实战(附源码 超详细)
800 1