论文5. TTA-Net - Texture Transform Attention for Realistic Image Inpainting
根据纹理特征和语义特征的相似度计算attention weight,作用到纹理特征上,生成一个reassembled 的纹理。生成的纹理细节非常好。
提出了一种新的网络,利用U-Net 结构,通过在已经验证过的编码解码图像修复网络中添加跳跃连接,直接将编码的纹理传输到解码器。
- 为了更有效的纹理转移,我们提出了纹理转换注意力模块(TTA),搜索最相似的patch。TTA 模块查找patch 的索引和相似度权重,并将纹理进行相应的重组,并将其传递给解码器。
- TTA-Net 可以使用特征合成模块,通过深层和浅层纹理的迭代应用来合成纹理更细的图像。
- 这个前向生成网络在各种数据集上实现了高质量的修复结果,包括 CelebA faces ,CelebA- hq faces, DTD textures 和Places2。
TTA 模块:
首先,将上下文特征(contextual feature Q)和精细纹理特征(Fine texture feature P)展开到相同大小,计算相似度权重(作为卷积过滤器)。将所有patch 的相似度权重按通道进行比较,找出最相似的patch 的索引和权重。然后根据索引图折叠纹理特征,生成重构的纹理图(Reassembled texture map T)。纹理图和权重图会送到特征合成模块,与上下文特征融合,最终生成Fusion ration map R。
结论:
确实在纹理细节上面,生成的细节非常丰富 。实验也证明了加入正则化能够有效的减少斑驳的棋盘状伪影。
论文 6. VQ - GAN:Taming Transformers for High-Resolution Image Synthesis
源码:
https://github.com/CompVis/taming-transformers
项目主页:
https://compvis.github.io/taming-transformers/
是基于Transformer 的高分辨率图像合成方法。解决了之前 Transformer 局限于低分辨率图像的基本挑战。VQ-GAN 将图像表示为感知上丰富的图像成分的合成形式,避免了直接在像素空间对图像建模的二次复杂度。用CNN 架构对合成成分进行建模,用Transformer 架构对成分进行合成,充分挖掘了二者的互补潜力。
Inpainting 常用损失函数:
Inpainting 量化评价指标:
Video Inpainting 数据集: