功能演示
摘要:
图像风格迁移(Image Style Transfer)
是一种将一张图像的风格应用到另一张图像上的技术。本文详细介绍了其实现的技术原理,同时给出完整的Python
实现代码、训练好的Pt模型,并且通过PyQT
实现了UI界面,更方便进行功能的展示。图片风格转换系统主要实现了3种风格的图片转移模型(可以自己训练喜欢的风格模型),只需要载入要进行风格转化的图片,并选择自己喜欢的风格,就可以立即得到转化后的图片效果。本文提供了完整的Python代码和使用教程,给感兴趣的小伙伴参考学习,完整的代码资源文件获取方式见文末。
前言
图像风格迁移(Image Style Transfer)是一种将一张图像的风格应用到另一张图像上的技术。具体来说,它将一张包含艺术风格的图像作为输入(称为"风格图片"),并将其应用到一张包含内容的图像(称为"内容图片")上,以生成一张新的图像,该图像保留了原始内容图片的内容,但具有风格图片的艺术风格。它是一种深度学习技术,利用了卷积神经网络的特征提取能力。通常使用预训练的卷积神经网络,如VGG网络,以提取输入图像的特征表示。然后,通过最小化内容图片和风格图片的特征表示之间的差异,以及保持生成图像与内容图片之间的相似度,生成新的图像。图像风格迁移可以应用于许多场景,如图像编辑、艺术创作、视频处理等,它是计算机视觉领域中的热门研究方向之一。
下面是博主设计的简洁软件界面,能够实现目标图片的风格选择,并且快速的将目标图片转换为指定风格并进行展示,还提供了图片保存功能。感兴趣的小伙伴可以自己试试。
觉得不错的小伙伴,感谢点赞、关注加收藏!如果大家有任何建议或意见,欢迎在评论区留言交流!
初始界面如下图:
图片载入
并选择图片风格
之后,点击风格转换
转换之后,界面如下:(然后点击保存图片
,可以将转换后的风格图片保存至默认目录)
一、效果演示
(1)图片风格转移
点击载入图片
,默认图片风格为梵高风格
,点击风格转换
,即可在右边显示出转换后的图片。
(2)更改图片风格
这里提供了3种预训练好的图片风格模型进行选择,通过下拉框选择指定的风格,然后点击风格转换
即可。点击保存图片
,即可将风格迁移后的图片进行保存。
二、图片迁移原理介绍
1.基本原理
本文主要利用的是基于神经网络的风格转换(Neural style transfer)技术:是一种基于离线模型优化的快速图像风格化迁移算法。核心思想就是利用基于离线模型优化的快速图像重建方法来节省时间。具体来说就是预训练一个前向网络,使得图像经过一次前向计算就可以得到图像重建结果,在依据各自约束来优化这一结果。根据一个训练好的前向网络能够学习到多少个风格作为分类依据,这里可以将这一类算法再细分为单模型单风格(PSPM)、单模型多风格(MSPM)和单模型任意风格(ASPM)的快速风格化迁移算法。
本文使用的是单模型单风格(PSPM)的方式,即基于某一种图片风格以VGG网络为backbone,训练好相应风格的预训练模型,然后可以直接使用该训练好的模型对于图片进行快速的风格迁移。基本原理见下图:
更多原理介绍可参考:https://blog.csdn.net/qq_39297053/article/details/120453246
2.训练模型
可以在自己的输入样式图像上训练自定义模型。为此,需要一个内容图像数据集来进行训练:例如MS-COCO 2014 数据集。
启动训方式,按以下方式运行train.py
脚本:
python train.py --dataset_path [PATH_TO_DATASET] --style_image_path [PATH_TO_STYLE_IMAGE]
具体示例如下:
python train.py \ --dataset_path ms-coco \ --style_image_path images/style/1.jpg \ --batch_size 8 \ --lambda_style 200
dataset_path:包含训练集和验证集的文件夹的路径。该文件夹的结构应如下所示:
train.py的参数说明:
style_image_path:目标样式图像的路径。
root_logdir:保存模型快照和 TensorBoard 日志的根目录。默认=“模型”。
weights_snapshot_path:模型权重快照的路径。在恢复以前的培训工作时使用。默认 = ‘’。
lambda_content:内容项在总损失中的权重。经验上好的范围:1 - 100。默认值 = 10。
lambda_style:样式项在总损失中的权重。经验上好的范围:10 - 100,000。默认值 = 100。
lambda_tv:生成图像的总变化在总损失中的权重。经验上好的范围:0 - 1,000。默认值 = 10。
learning_rate:优化过程中每一步的大小。默认值 = 1e-3。
epochs:要执行的训练时期数。默认值 = 2。
content_block_weights:每个卷积块在内容损失中的权重。这五个数字指的是VGG19模型的以下五个激活:conv1_1、conv2_1、conv3_1、conv4_1、conv5_1。默认值 = (0.0, 1.0, 0.0, 0.0, 0.0)。
style_block_weights:样式损失中每个卷积块的权重。这五个数字指的是VGG19模型的以下五个激活:conv1_1、conv2_1、conv3_1、conv4_1、conv5_1。默认 = (1/5, 1/5, 1/5, 1/5, 1/5)。
input_images_dim:模型输入图像的维度。默认值 = 256。
visualization_interval:间隔(训练迭代次数),之后程式化图像的中间结果将在 TensorBoard 中可视化。默认值 = 50。
snapshot_interval:间隔(训练迭代次数),之后模型的中间快照将被保存到磁盘。默认值 = 1000。
batch_size:用于每次训练迭代的小批量大小。默认值 = 4。
num_data_loader_workers:用于在后台从数据集中加载图像的工作人员数量。默认值 = 5。
3.模型使用方法
命令行方式:
python run.py [PATH_TO_PRETRAINED_MODEL] [PATH_TO_CONTENT_IMAGE] [PATH_TO_STYLIZED_OUTPUT]
编程方式:
import image_utils from stylize import Stylizer stylizer = Stylizer('models/style1.pt') image = image_utils.load('images/content/1.jpg') stylized = stylizer.stylize(image) image_utils.save(stylized, f'images/stylized/style1/1.jpg')
4.风格迁移示例