翻车现场:我用pytorch和GAN做了一个生成神奇宝贝的失败模型

简介: 翻车现场:我用pytorch和GAN做了一个生成神奇宝贝的失败模型

前言

神奇宝贝已经是一个家喻户晓的动画了,我们今天来确认是否可以使用深度学习为他自动创建新的Pokemon。

image.png

我最终成功地使用了生成对抗网络(GAN)生成了类似Pokemon的图像,但是这个图像看起来并不像神奇宝贝。

虽然这个尝试失败了,但是我认为其他人可能会喜欢这个过程,现在把他分享出来。

GAN生成对抗网络

image.png

这里不想花很多时间讨论GAN是什么,但是上面的图片只是一个非常简单的解释过程。

训练了两个网络-鉴别器和生成器。生成器学习如何吸收随机噪声并从训练数据生成看起来像图像的图像。它通过将其生成的图像发送到鉴别器网络,鉴别器网络经过训练可以辨别真实图像和生成的图像。

生成器经过优化,可以更好地欺骗鉴别器,鉴别器经过优化,可以更好地检测生成的图像。因此,他们俩一起进步。

数据

因此,我的假设是,我可以使用真实的神奇宝贝图像作为训练集来训练GAN。结果将是一个生成器,然后将能够创建新颖的神奇宝贝!

我的第一个挑战是找到神奇宝贝的图像。幸运的是,Kaggle数据集得以抢救!

有人已经想过类似的想法,尽管听起来他在生成新的Pokemon图像方面没有很大的成功,但是由于他花了时间收集800幅图像,因此决定将它们上传到Kaggle数据集。这节省我很多时间。

我们看一下这个数据集:

image.png

这是一张 蒜头王八 妙蛙种子 的图片,大小是256*256

现在,有了数据,下一步就是选择要使用的GAN类型。可能存在数百种GAN的变体,但过去使用DCGAN可以看到良好的效果。

DCGAN从神经网络中消除了所有完全连接的层,使用转置卷积进行上采样,并用卷积跨度(除其他外)代替了最大池化。

我喜欢DCGAN,因为与其他我尝试过的GAN相比,它们似乎更健壮,因此无需进行超参数的重大调整即可更容易训练。

实际上,DCGAN非常受欢迎,以至于PyTorch的示例就很好地实现了。同样重要的是,他们的示例可以直接从文件夹读取输入。因此,使用以下命令,我能够开始训练我的GAN:

python main.py --dataset folder --dataroot /pokemon/  --cuda --niter 10000 --workers 8

该命令从文件夹中读取图像,在具有8个工作程序的GPU上运行以加载数据,并运行10,000次迭代。

事实证明,此问题需要进行10,000次迭代,但我想看看我能推多远。让我们来看看!

结果

第一步始于一个一无所知的网络,因此产生的只是噪声:

image.png

每个box都是一个64 x 64像素的图像,它是尝试从我们的生成器中生成神奇宝贝。由于我们的网格为8 x 8,因此我们尝试生成64种不同的神奇宝贝。我将图像缩小到64 x 64,因为在尝试生成更大的图像时这种算法会变得不稳定。

50次迭代以后,有点意思了

image.png

150次迭代,图像变得清晰了


3,700点之后,会有一些不错的图片出现了。此后,它开始趋向于产生更差的结果:

image.png

这些看起来根本都不像神奇宝贝!

但是请将浏览器缩小到25%左右,然后再次查看。在远处,它们看起来惊人地类似于真正的神奇宝贝。

为什么呢?由于我们正在对64 x 64的图像进行训练,因此辨别器很容易被形状和颜色类似于口袋妖怪的图像所迷惑,因此生成器不需要改进。

下一步?

显而易见的下一步就是训练更高分辨率的GAN。实际上,我已经对此进行了一些尝试。

第一个尝试是重新编写PyTorch代码以缩放到256 x 256图像。该代码有效,但是DCGAN崩溃了,我无法稳定训练。主要原因是只有大约800张图像。而且,尽管我进行了一些数据扩充,但还不足以训练更高分辨率的DCGAN。

然后,我尝试使用相对论的GAN,该GAN已成功针对具有较小数据集的高分辨率数据进行了成功的训练,但也无法使其正常工作。

目前来看,问题应该出现在数据上,数据量太小,还是满足不了训练的需求。但是我将继续尝试其他一些想法,以产生更高分辨率的Pokemon,如果我有工作的必要,我将发布我使用的技术。

目录
相关文章
|
5月前
|
机器学习/深度学习 存储 PyTorch
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
Neural ODE将神经网络与微分方程结合,用连续思维建模数据演化,突破传统离散层的限制,实现自适应深度与高效连续学习。
451 3
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
|
4月前
|
边缘计算 人工智能 PyTorch
130_知识蒸馏技术:温度参数与损失函数设计 - 教师-学生模型的优化策略与PyTorch实现
随着大型语言模型(LLM)的规模不断增长,部署这些模型面临着巨大的计算和资源挑战。以DeepSeek-R1为例,其671B参数的规模即使经过INT4量化后,仍需要至少6张高端GPU才能运行,这对于大多数中小型企业和研究机构来说成本过高。知识蒸馏作为一种有效的模型压缩技术,通过将大型教师模型的知识迁移到小型学生模型中,在显著降低模型复杂度的同时保留核心性能,成为解决这一问题的关键技术之一。
|
6月前
|
PyTorch 算法框架/工具 异构计算
PyTorch 2.0性能优化实战:4种常见代码错误严重拖慢模型
我们将深入探讨图中断(graph breaks)和多图问题对性能的负面影响,并分析PyTorch模型开发中应当避免的常见错误模式。
414 9
|
8月前
|
机器学习/深度学习 存储 PyTorch
PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统
本文通过使用 Kaggle 数据集训练情感分析模型的实例,详细演示了如何将 PyTorch 与 MLFlow 进行深度集成,实现完整的实验跟踪、模型记录和结果可复现性管理。文章将系统性地介绍训练代码的核心组件,展示指标和工件的记录方法,并提供 MLFlow UI 的详细界面截图。
378 2
PyTorch + MLFlow 实战:从零构建可追踪的深度学习模型训练系统
|
8月前
|
机器学习/深度学习 PyTorch 算法框架/工具
提升模型泛化能力:PyTorch的L1、L2、ElasticNet正则化技术深度解析与代码实现
本文将深入探讨L1、L2和ElasticNet正则化技术,重点关注其在PyTorch框架中的具体实现。关于这些技术的理论基础,建议读者参考相关理论文献以获得更深入的理解。
268 4
提升模型泛化能力:PyTorch的L1、L2、ElasticNet正则化技术深度解析与代码实现
|
9月前
|
机器学习/深度学习 PyTorch 编译器
深入解析torch.compile:提升PyTorch模型性能、高效解决常见问题
PyTorch 2.0推出的`torch.compile`功能为深度学习模型带来了显著的性能优化能力。本文从实用角度出发,详细介绍了`torch.compile`的核心技巧与应用场景,涵盖模型复杂度评估、可编译组件分析、系统化调试策略及性能优化高级技巧等内容。通过解决图断裂、重编译频繁等问题,并结合分布式训练和NCCL通信优化,开发者可以有效提升日常开发效率与模型性能。文章为PyTorch用户提供了全面的指导,助力充分挖掘`torch.compile`的潜力。
1073 17
|
10月前
|
存储 自然语言处理 PyTorch
从零开始用Pytorch实现LLaMA 4的混合专家(MoE)模型
近期发布的LLaMA 4模型引入混合专家(MoE)架构,以提升效率与性能。尽管社区对其实际表现存在讨论,但MoE作为重要设计范式再次受到关注。本文通过Pytorch从零实现简化版LLaMA 4 MoE模型,涵盖数据准备、分词、模型构建(含词元嵌入、RoPE、RMSNorm、多头注意力及MoE层)到训练与文本生成全流程。关键点包括MoE层实现(路由器、专家与共享专家)、RoPE处理位置信息及RMSNorm归一化。虽规模小于实际LLaMA 4,但清晰展示MoE核心机制:动态路由与稀疏激活专家,在控制计算成本的同时提升性能。完整代码见链接,基于FareedKhan-dev的Github代码修改而成。
473 9
从零开始用Pytorch实现LLaMA 4的混合专家(MoE)模型
|
9月前
|
机器学习/深度学习 搜索推荐 PyTorch
基于昇腾用PyTorch实现CTR模型DIN(Deep interest Netwok)网络
本文详细讲解了如何在昇腾平台上使用PyTorch训练推荐系统中的经典模型DIN(Deep Interest Network)。主要内容包括:DIN网络的创新点与架构剖析、Activation Unit和Attention模块的实现、Amazon-book数据集的介绍与预处理、模型训练过程定义及性能评估。通过实战演示,利用Amazon-book数据集训练DIN模型,最终评估其点击率预测性能。文中还提供了代码示例,帮助读者更好地理解每个步骤的实现细节。

推荐镜像

更多