三种能有效融合文本和图像信息的方法——特征拼接、跨模态注意、条件批量归一化

简介: 三种能有效融合文本和图像信息的方法——特征拼接、跨模态注意、条件批量归一化

当前T2I模型的一大限制就是如何有效地融合文本和图像信息?

目前常用的有特征拼接(features concatenation)、跨模态注意(cross-modal attention)和条件批量归一化(CBN,Condition Batch Normalization)

一、特征拼接

特征拼接就是简单的将文本模态进行简单线性变换,转换成图像模态需要的特征向量尺寸,然后将文本特征向量与图像特征向量进行拼接,在StackGANStackGAN++中用到过。

这种方法其实既没有充分利用到文本信息,也没有有效实现文本图像的信息融合。

二、跨模态注意

随着注意力机制的发展,跨模态注意力可以为图像的每个子区域计算一个单词的上下文向量,其首先在AttnGAN中得到应用,AttnGAN在单词的水平上实现了单词与图片中的某个子区域的映射,自动选择字级条件以生成图像的不同子区域。

在生成图像时,匹配图像子区域和最相关的单词,对输入图片的每一部分,匹配最相关的单词向量来约束其生成,增加图像的细粒度细节。如在AttnGAN中使用如下公式计算跨模态注意力:

image.png

其中image.png

而β(i,j)表示    第i个单词对生成图像的第j个区域的重要程度。

然而,随着图像尺寸的增大,计算成本迅速增加。此外,自然语言描述采用高级语义,而图像的一个子区域相对较低。因此,它无法很好地探索高级语义来控制图像生成过程,尤其是对于具有多个对象的复杂图像效果很差。

三、条件批量归一化(CBN)

全称为:Condition Batch Normalization,是SD-GAN首先在文本生成图像中进行应用的,将其看作是在一般的特征图上的缩放和移位操作的一种特例,它的表示形式如下所示:

image.png

原理是:利用自然语言描述中的语言线索(linguistic cues)来调节条件批处理归一化,主要目的是增强生成网络特征图的视觉语义嵌入。它使语言嵌入能够通过上下缩放、否定或关闭等方式操纵视觉特征图,其可以从输入中获取到语句级和词级两个层次上的语言线索。

DF-GAN中,其采用了一系列叠加仿射变换按通道缩放和移动图像特征,也可以认为是一种条件批量归一化。

SSA-GAN中,其将CBN进行了进一步的发展,作者提出的语义空间条件批量规范化(S-SCBN)将掩码预测器输出的掩码图添加到SCBN中作为空间条件,

相关文章
|
移动开发 文字识别 算法
论文推荐|[PR 2019]SegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法
本文简要介绍Pattern Recognition 2019论文“SegLink++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping”的主要工作。该论文提出一种对文字实例敏感的自下而上的文字检测方法,解决了自然场景中密集文本和不规则文本的检测问题。
1953 0
论文推荐|[PR 2019]SegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法
|
2月前
|
数据采集
遥感语义分割数据集中的切图策略
该脚本用于遥感图像的切图处理,支持大尺寸图像按指定大小和步长切割为多个小图,适用于语义分割任务的数据预处理。通过设置剪裁尺寸(cs)和步长(ss),可灵活调整输出图像的数量和大小。此外,脚本还支持标签图像的转换,便于后续模型训练使用。
22 0
|
7月前
|
计算机视觉
论文介绍:像素级分类并非语义分割的唯一选择
【5月更文挑战第24天】论文《像素级分类并非语义分割的唯一选择》提出了MaskFormer模型,该模型通过掩模分类简化语义与实例级分割任务,无需修改模型结构、损失函数或训练过程。在ADE20K和COCO数据集上取得优异性能,显示处理大量类别时的优势。MaskFormer结合像素级、Transformer和分割模块,提高效率和泛化能力。掩模分类方法对比边界框匹配更具效率,且MaskFormer的掩模头设计降低计算成本。该方法为语义分割提供新思路,但实际应用与小物体处理仍有待检验。[链接](https://arxiv.org/abs/2107.06278)
62 3
|
7月前
|
数据可视化
cfDNAPro|cfDNA片段数据生物学表征及可视化的R包
cfDNA是指存在于血液中的游离DNA片段,来源于正常和异常细胞的死亡。这些片段长度通常为160-180碱基对,研究cfDNA在非侵入性诊断、疾病监测、早期检测和理解生理及病理状态方面有重要意义。cfDNAPro是一个工具,用于分析cfDNA的片段长度分布,提供数据表征和可视化。它能展示片段长度的整体、中位数和众数,以及峰和谷的分布,还有振荡周期性。通过上图和下图的对比,可以观察到不同队列中cfDNA片段长度的差异。此外,cfDNAPro还能展示DNA片段的模态长度,分析10bp周期性振荡模式,帮助科学家深入了解cfDNA的特征。
124 0
bert知识库问答 实现建筑领域的问答匹配 文本相似性计算 完整代码数据
bert知识库问答 实现建筑领域的问答匹配 文本相似性计算 完整代码数据
105 0
|
机器学习/深度学习 自然语言处理 BI
FourIE:基于图卷积网络的跨任务实例表征交互和标签依赖的联合信息抽取模型
现有的信息抽取(IE)工作主要是分别解决四个主要任务(实体提及识别、关系抽取、事件触发词检测和论元抽取),无法从任务之间的相互依赖中获益。
124 2
|
机器学习/深度学习 自然语言处理 算法
TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?
这是一篇7月新发布的论文,他提出了使用自然语言处理的检索增强*Retrieval Augmented*技术,目的是让深度学习在表格数据上超过梯度增强模型。
147 0
|
PyTorch 算法框架/工具
语义分割数据增强——图像和标注同步增强
其中常见的数据增强方式包括:旋转、垂直翻转、水平翻转、放缩、剪裁、归一化等。
763 0
|
JSON 算法 数据格式
优化cv2.findContours()函数提取的目标边界点,使语义分割进行远监督辅助标注
可以看到cv2.findContours()函数可以将目标的所有边界点都进行导出来,但是他的点存在一个问题,太过密集,如果我们想将语义分割的结果重新导出成labelme格式的json文件进行修正时,这就会存在点太密集没有办法进行修改,这里展示一个示例:没有对导出的结果进行修正,在labelme中的效果图。
237 0
|
机器学习/深度学习 数据可视化 数据挖掘
字符级CNN分类模型的实现
字符级CNN分类模型的实现

热门文章

最新文章