CVPR2020图像生成模型PULSE :糊图像5秒变清晰、测评教程

简介: 超分重建
🎉 声明: 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️

1-0

备注:小白笔记,感谢查阅

基础信息

pulse 环境搭建

  • 服务器:Ubuntu16.04 GTX1060 6G * 8
  • 个人用户:CUDA版本 9.2;cudnn 7.6.2 ;
  • 因此适配的pytorch为 torch==1.5.0+cu92 torchvision==0.6.0+cu92

pytorch 官方安装 命令

conda create -n torch15 python=3.8.2

source activate torch15

pip install torch==1.5.0+cu92 torchvision==0.6.0+cu92 -f https://download.pytorch.org/whl/torch_stable.html

pip install pandas

pip install  requests

pip install scipy==1.4.1

pip install dlib==19.19.0
  • 下载预训练模型,我下载好的预训练模型在此分享:
链接:https://pan.baidu.com/s/1fJ1qtN2NyeCNr0HnCWriOA 
提取码:cool

使用预训练模型进行,测试:

1、检测原图中的人脸并下采样到 32x32 大小,保存到:input 目录中;

python align_face.py -input_dir dataset/mix

2、基于 32x32 的人脸小图,重建生成 1024x1024 的高清人脸大图,保存到: runs 目录中;

python run.py   

效果如下:
1

2

3

pulse 文章的意义和创新

杜克大学的研究团队研发了一个AI图像生成模型PULSE。PULSE可以在5秒钟内将低分辨率的人像转换成清晰、逼真的人像。

要指出的是,PULSE所做的工作并不是把低分辨率“还原”到高分辨率,而是输出许多张可能的高分辨率图像。比如,用户输入一张16-16分辨率的图像,PLUSE可输出一组1024-1024分辨率的图像。

这项研究于本月在计算机视觉与模式识别顶会CVPR 2020上发表,论文标题为《PULSE:通过对生成模型的潜在空间探索实现自监督照片上采样(PULSE:Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models)》。

1

二、方法: 降尺寸损失方法:用生成图像“倒推”模糊图,相似才能输出

为了保证输出图像与输入图像的“对应性”,研究人员在PULSE模型中应用了一种“降尺度损失(downscaling loss)”方法。

当PULSE模型的生成网络提议以一张清晰图像作为输出时,判别网络会把这张清晰图像的分辨率降低到与输入图像相等的水平。然后,判别网络会对比降尺度损失图像与输入图像之间的相似性。

只有在降尺度损失图像与输入图像相似性较高时,判别网络才会判定生成网络提议的清晰图片可以作为输出。

2

三、40位评估者参与打分,PULSE模型MOS得分最高

研究人员用高分辨人脸数据集CelebA HQ评估PLUSE的性能。为了进行对比,研究人员利用CelebA HQ数据集训练了监督模型BICBIC、FSRNET和FSRGAN。

所有模型均以1616分辨率的图像作为输入,BICBIC、FSRNET和FSRGAN模型以128128分辨率图像作为输出,PLUSE模型以128128分辨率图像和10241024分辨率图像作为输出。

评估结果显示,图像质量方面,PULSE模型在生成眼睛、嘴唇等图像细节方面的能力优于其他模型。
4

5

自己对论文的总结

  • 训练数据(无需对成对的LR-HR图像数据集)

1

  • 训练过程

9

  • 重建效果

2

3

  • 评价指标

1

2

  • 作者总结:我们已经建立了用于图像超分辨率的新方法以及新的问题表述。

与传统的CNN监督工作相比,这为沿着不同轨道的超分辨率方法开辟了一条新途径。 该方法不仅限于在训练过程中看到的特定 degradation operator ,而且始终保持较高的感知质量。

🚀🚀 AI之路、道阻且长

目录
相关文章
|
15天前
|
机器学习/深度学习 人工智能 编解码
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。
86 18
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
|
5月前
|
机器学习/深度学习 存储 算法
【2024泰迪杯】B 题:基于多模态特征融合的图像文本检索Python代码baseline
本文通过可视化分析,总结了2024年考研国家分数线的变化趋势,指出管理类MBA降低5分,哲学、历史学、理学、医学等10个专业分数线上涨,而经济学等专业出现下降,反映出不同专业分数线受考生数量、竞争情况和政策调整等因素的影响。
87 2
【2024泰迪杯】B 题:基于多模态特征融合的图像文本检索Python代码baseline
|
7月前
|
机器学习/深度学习 算法
【机器学习】BK- SDM与LCM的融合策略在文本到图像生成中的应用
【机器学习】BK- SDM与LCM的融合策略在文本到图像生成中的应用
76 0
|
机器学习/深度学习
CVPR2021 GAN详细解读 | AdaConv自适应卷积让你的GAN比AdaIN更看重细节(附论文下载)(二)
CVPR2021 GAN详细解读 | AdaConv自适应卷积让你的GAN比AdaIN更看重细节(附论文下载)(二)
165 0
|
机器学习/深度学习 编解码 计算机视觉
CVPR2021 GAN详细解读 | AdaConv自适应卷积让你的GAN比AdaIN更看重细节(附论文下载)(一)
CVPR2021 GAN详细解读 | AdaConv自适应卷积让你的GAN比AdaIN更看重细节(附论文下载)(一)
495 0
|
算法 计算机视觉 网络架构
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(一)
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(一)
206 0
|
计算机视觉
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(二)
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(二)
88 0
|
机器学习/深度学习 数据可视化 vr&ar
CV的未来是图神经网络?中科院软件所发布全新CV模型ViG,性能超越ViT
CV的未来是图神经网络?中科院软件所发布全新CV模型ViG,性能超越ViT
182 0
|
机器学习/深度学习 算法 自动驾驶
CVPR2021快报!目标检测和语义分割论文分类汇总 | 源码 |
在语义分割中,对广泛使用的域自适应基准数据集进行了广泛的实验和消融研究。通过对标记的Synscapes和GTA5数据集以及未标记的Cityscapes训练集进行训练,我们提出的方法在Cityscapes的验证集上达到了59.0%的mIoU。它明显优于所有以前的最新的单源和多源无监督域自适应方法。
CVPR2021快报!目标检测和语义分割论文分类汇总 | 源码 |
|
机器学习/深度学习 传感器 人工智能
2022最新综述!稀疏数据下的深度图补全(深度学习/非引导/RGB引导)(上)
获取正确的像素级场景深度在各种任务中发挥着重要作用,如场景理解、自动驾驶、机器人导航、同时定位和建图、智能农业和增强现实。因此,这是过去几十年来研究的一个长期目标。获得场景深度的一种成本有效的方法是使用单目深度估计算法,从单个图像直接估计场景深度。
2022最新综述!稀疏数据下的深度图补全(深度学习/非引导/RGB引导)(上)