CVPR 2018:一种交互式纹理迁移通用框架

简介: 本文提出了一种用户引导的纹理迁移技术,通过输入素材语义图、素材风格图及目标语义图,能够自动生成具有目标语义和素材风格的目标风格图。

雷锋网(公众号:雷锋网) AI 科技评论按:本文是北京大学门怡芳基于其 CVPR spotlight 论文为 AI 科技评论提供的独家稿件,未经许可不得转载。论文信息:A Common Framework for Interactive Texture Transfer

引言

纹理迁移技术作为计算机视觉和图形学领域的一个研究热点,能够将样图中的风格纹理自动迁移到目标图像中,本文提出了一种用户引导的纹理迁移技术,通过输入素材语义图、素材风格图及目标语义图,能够自动生成具有目标语义和素材风格的目标风格图,该问题描述如图 1 所示。

TB13aiuiVzqK1RjSZFCXXbbxVXa.png

图 1:问题描述。输入素材语义图 S_sem、素材风格图 S_sty 及目标语义图 T_sem,能够自动生成具有目标语义和素材风格的目标风格图 T_sty。

该技术有着广泛的应用场景,例如将一副简单的用户涂鸦变成艺术画作、编辑装饰性纹理的生成路径和形状、生成具有已知风格纹理的特效文字、控制特效字中特效的空间分布、对图像中两个物体进行纹理交换等,该技术可以通过语义引导的方式将素材样图中的纹理图案迁移到目标图像中。

由于任务的多样性和语义引导的简单性,利用一些现有的技术很难达到我们的目标。一些方法在特定的场景上能达到很好的效果,如装饰笔刷 [1] 和文本特效迁移 [2],但这些方法只适用于单一的指定场景,不适用于我们目标中的多任务情景。基于图像类比的方法 [3,4],由于缺少对内部结构信息的分布引导,很难对内部具有复杂结构信息的纹理进行迁移并保留其细节性高频纹理。神经涂鸦 [5]利用卷积神经网络进行风格迁移,然而该方法适用范围小,仅适合于抽象的艺术画作,而不能很好地处理真实拍摄的图像或写实主义图片,使得真实图像迁移后的结果图包含大量的底层噪声,并且这种方法类似于一个黑盒操作,无法控制生成过程,使得生成结果有更多不可预测性,难以控制其细节合成,从而难以生成高质量的图片。

本文提出一种用户引导的纹理迁移通用框架以适用于多任务场景。本方法基于非参数化的纹理合成技术,从素材图取样完成目标图像的合成,采用了多个引导项动态引导合成过程。本方法通过显著性结构纹理引导的方式解决了目标风格图中结构信息丢失的问题;通过语义引导项为用户提供了控制纹理形态、位置的接口,提供用户交互性;通过纹理相干性引导项保证与素材风格的一致性。使其能够生成高质量的纹理迁移图片,满足多场景任务需求。

方法

本文通过输入包含素材语义图、素材风格图和目标语义图的一组样图,通过显著结构信息提取、结构信息传播、引导性的纹理合成等步骤,使得纹理迁移后仍能保持内部结构信息、底层细节信息,由此自动生成与目标语义图内容一致且具备素材风格的目标风格图,其总体处理流程如图 2 所示。

TB19jmwi3HqK1RjSZFEXXcGMXXa.png

图 2:方法的总体流程。主要包含显著结构信息提取、结构信息传播和引导性的纹理合成三个步骤。

1. 显著结构信息提取。通过显著性检测对图像中各个像素点的显著度进行计算,将满足结构信息定义的像素点标注为显著性点,得到素材风格图中的显著性结构信息,可视化过程如图 3 所示。

TB1okSui7voK1RjSZPfXXXPKFXa.png

图 3:显著结构信息提取过程可视化。(c)(d) 分别为 (a)(b) 进行显著性检测结果,将其差值作为显著结构信息,左右为两个样例。

2. 创建目标结构图:依据素材语义图和目标语义图的形状相似性,找到一个平面变换关系,将素材风格图中的具备显著结构信息的像素点映射到新图像中,该图像定义为目标结构图,可视化过程如图 4 所示。

TB1fBatiZbpK1RjSZFyXXX_qFXa.png

图 4:首先根据 CPD 算法对素材语义图和目标语义图进行轮廓关键点匹配,之后依据匹配结果,利用薄板样条插值算法将素材风格图中的具备显著结构信息的像素点映射到新图像中,该图像定义为目标结构图。

3. 建立目标函数并进行纹理合成优化,目标函数由不同权重的语义引导项、结构引导项和纹理相干项构成。语义引导项用于施加用户对风格纹理形态、位置的控制;结构引导项用于约束目标结构图中图像块与实时合成的目标风格图中图像块的相似性;纹理相干项控制目标风格图中生成的纹理与素材风格图中纹理风格相一致,使得风格纹理具有连续性。且语义引导项的权重随着迭代次数增多逐渐下降,变化范围从常数 β 下降到 0,以权重变化方式进行动态引导。将纹理合成过程看作一个最优化问题,以多尺度方式在每个尺度上利用最大期望值算法不断迭代优化目标函数,交替执行最近邻搜索和目标风格图重建两个步骤,直至收敛,即完成图像纹理迁移,得到具备素材风格的目标风格图。

实验结果

本文主要通过不同任务场景下的生成效果展示了方法的有效性,仅需要单张样例,便能够根据用户需求生成高质量的纹理迁移图片,在满足目标形态的同时,保证了纹理的连续性和一致性。以下为不同场景下图像的生成结果:

(1)用户涂鸦变艺术画作

TB1tS1riYvpK1RjSZPiXXbmwXXa.png TB13fqIi4jaK1RjSZFAXXbdLFXa.png

(2)编辑装饰性纹理的生成路径和形状

TB1r31ni9rqK1RjSZK9XXXyypXa.png

(3)特效字生成(控制特效空间分布)

TB1TYOti4TpK1RjSZFKXXa2wXXa.png

(4)纹理交换

TB1Fqixi7zoK1RjSZFlXXai4VXa.png

本文在不同任务场景下和其他 state-of-the-arts 方法进行了对比实验,表明了文本方法在图像生成质量及风格迁移效果上的优越性。

TB1YPeRi5LaK1RjSZFxXXamPFXa.png

参考文献

[1] J. Lu, C. Barnes, C.Wan, P. Asente, R. Mech, and A. Finkelstein. Decobrush: drawing structured decorative patterns by example. ACM Transactions on Graphics (TOG), 33(4):90, 2014.

[2] S. Yang, J. Liu, Z. Lian, and Z. Guo. Awesome typography: Statistics-based text effects transfer[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 7464-7473.

[3] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin. Image analogies. In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, pages 327–340. ACM, 2001.

[4] P. B´enard, F. Cole, M. Kass, I. Mordatch, J. Hegarty, M. S. Senn, K. Fleischer, D. Pesare, and K. Breeden. Stylizing animation by example. ACM Transactions on Graphics (TOG), 32(4):119, 2013.

[5] A. J. Champandard. Semantic style transfer and turning two-bit doodles into fine artworks. arXiv preprint arXiv: 1603.01768, 2016.

雷锋网

目录
相关文章
|
7月前
|
人工智能 vr&ar 图形学
开源单图生成3D模型TripoSR的局限性分析
【2月更文挑战第25天】开源单图生成3D模型TripoSR的局限性分析
330 6
开源单图生成3D模型TripoSR的局限性分析
|
7月前
|
人工智能 弹性计算 PyTorch
【Hello AI】神行工具包(DeepGPU)-GPU计算服务增强工具集合
神行工具包(DeepGPU)是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合,旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力
129613 3
|
4天前
|
人工智能 前端开发 PyTorch
【AI系统】动态图与静态图转换
从 TensorFlow、PyTorch 到 PaddlePaddle、MindSpore、MegEngine,主流 AI 框架经历了动静分离、动静结合到动静统一的发展过程。这些框架通过动态图转静态图技术,实现了计算效率与灵活性的平衡,显著提升了 AI 开发效率和产品应用的便利性。
36 14
|
25天前
|
并行计算 监控 搜索推荐
使用 PyTorch-BigGraph 构建和部署大规模图嵌入的完整教程
当处理大规模图数据时,复杂性难以避免。PyTorch-BigGraph (PBG) 是一款专为此设计的工具,能够高效处理数十亿节点和边的图数据。PBG通过多GPU或节点无缝扩展,利用高效的分区技术,生成准确的嵌入表示,适用于社交网络、推荐系统和知识图谱等领域。本文详细介绍PBG的设置、训练和优化方法,涵盖环境配置、数据准备、模型训练、性能优化和实际应用案例,帮助读者高效处理大规模图数据。
47 5
|
7月前
|
存储 物联网 Serverless
玩转 AI 绘图,基于函数计算部署 Stable Diffusion可自定义模型
本文主要将带大家通过使用阿里云产品函数计算 FC 和文件存储 NAS ,快速使用 Stable Diffusion 实现更高质量的图像生成,本方案内置模型库+常用插件+ControlNet ,用户可根据自己的需要更换需要的模型、Lora、增加插件。
68837 27
玩转 AI 绘图,基于函数计算部署 Stable Diffusion可自定义模型
|
3月前
|
机器学习/深度学习 测试技术 数据处理
KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验
Kolmogorov-Arnold网络(KAN)作为一种多层感知器(MLP)的替代方案,为深度学习领域带来新可能。尽管初期测试显示KAN在时间序列预测中的表现不佳,近期提出的可逆KAN混合模型(RMoK)显著提升了其性能。RMoK结合了Wav-KAN、JacobiKAN和TaylorKAN等多种专家层,通过门控网络动态选择最适合的专家层,从而灵活应对各种时间序列模式。实验结果显示,RMoK在多个数据集上表现出色,尤其是在长期预测任务中。未来研究将进一步探索RMoK在不同领域的应用潜力及其与其他先进技术的结合。
105 4
|
3月前
|
JSON 物联网 Serverless
|
7月前
|
编解码 人工智能
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
【5月更文挑战第23天】研究人员提出Lumina-T2X框架,统一生成和编辑图像、视频、音频及3D内容。使用Flow-based Large Diffusion Transformer (Flag-DiT)模型,实现多模态生成,支持内容编辑。尽管面临训练资源需求高、生成质量不及人类创作等问题,该框架在娱乐、广告等领域有广泛应用潜力。[论文链接](https://arxiv.org/pdf/2405.05945)
113 1
|
6月前
|
人工智能 并行计算 数据可视化
即插即用 | YOLOv8热力图可视化方法详解,揭秘AI如何「看」世界!【附完整源码】
即插即用 | YOLOv8热力图可视化方法详解,揭秘AI如何「看」世界!【附完整源码】
|
7月前
|
机器学习/深度学习 搜索推荐 物联网
微软开源创新LoRA组合方法,增强文生图复杂细节控制
微软研究团队推出Multi-LoRA Composition技术,改善文本到图像模型的细节控制。利用低秩适应(LoRA)提升图像生成精度,通过LORA SWITCH和LORA COMPOSITE解决组合复杂图像的挑战。新方法在ComposLoRA平台上测试,性能优于基线,为图像生成和个性化内容创作开辟新途径。尽管有学习曲线和定制需求优化的问题,但该研究仍为领域带来显著进步。
424 3
微软开源创新LoRA组合方法,增强文生图复杂细节控制