AI跟Bob Ross学画画,杂乱色块秒变风景油画 | PyTorch教程+代码

简介:
本文来自AI新媒体量子位(QbitAI)

正在研究机器学习的全栈码农Dendrick Tan在博客上发布了一份教程+代码:用PyTorch实现将色块拼凑成的图片,转换为一幅Bob Ross风格的画作。

说到Bob Ross,这头蓬松的秀发你可能有点印象……

他在电视节目《欢乐画室》上教了11年画画,还推出了同名的美术用品品牌,也出版了不少教材。

他的画,基本上是这个风格:

量子位今天要介绍的这个教程,就叫drawlikebobross

是什么?

drawlikebobross项目的目标是,将一张色块拼凑而成的图片转变成(看起来有点像)Bob Ross油画风格的图像,如下图所示:

怎么做?

获取数据

在我们开始训练网络之前,首先需要获取数据来构建数据集。幸运的是,通过谷歌搜索,我在twoinchbrush网站上找到了一个关于Bob Ross作品的数据集。

这个网站的优点是它包含所有的Bob Ross作品,并按照如下格式列出:

http://www.twoinchbrush.com/images/painting1.png

http://www.twoinchbrush.com/images/painting2.png

http://www.twoinchbrush.com/images/painting3.png

http://www.twoinchbrush.com/images/paintingN.png

开源代码中的scrapper.sh就是用来完成这项工作的。

数据预处理

由于我们的目标是将色块图片转换为Bob Ross风格的图像,所以我决定使用平均偏移滤波(mean shift filtering)来实现图像平滑操作,将得到的色块图像作为输入,原始图像作为输出。

为了最大限度地减少训练时间,我将大部分原始图像预处理成平滑的色块图片,并存储为HDF5格式。由于HDF5的快速可读写性能,我们能够快速地测试不同的神经网络结构,无需在训练时间内多次重复预处理数据,这样,就节省了大量的时间。

神经网络结构

这个项目所使用的网络结构叫做对抗自动编码器(Adversarial Autoencoder),也被简称为AAE。关于AAE,有一篇博客介绍(http://hjweide.github.io/adversarial-autoencoders)和一篇论文(https://arxiv.org/abs/1511.05644)。

博客介绍中对AAE的评价是:“我觉得本文中最有趣的想法是不利用变分推理方法,而是使用对抗训练的方法将编码器的输出分布q(z | x)映射到任意先验分布p(z)的概念。”

 对抗自动编码器AAE的网络结构

将数据输入我们的模型

我们希望将色块图片输入到网络,输出为Bob Ross风格的图像。具体实现流程如下。

 利用AAE网络实现风格迁移

我选择使用PyTorch来实现这个模型,是因为我一直在用它,也是因为与TensorFlow相比,这个框架的API很好用,且保持着很强的一致性,自从用了它,效率提升了几十倍。

该模型的训练过程可以分为四个部分:

models.py:神经网络的结构;

loader.py:数据载入操作;

trainer.py:训练网络的超参数配置;

train.py:训练的启动文件;

通过这种方式,如果想改变神经网络的结构,只需要再次编辑models.py和trainer.py,很容易进行修改。

训练

网络训练的时间越长,则网络输出Bob Ross风格的图像效果越好。

由于我使用的是ThinkPad t460s,自带的GPU计算性能不好,所以我在AWS上租了一个g2工作站,花了大约一天的时间,运行了2500步,来训练这个模型。

另外

drawlikebobross的开源代码中还包含一个网页App,欢迎下载测试,告诉我们结果如何。

也强烈推荐想尝试PyTorch的同学,花两天时间用这样一个小项目练手~

我们整理了文章所有相关链接,在量子位公众号(QbitAI)对话界面回复“BobRoss”查看。

本文作者:王新民
原文发布时间:2017-04-09 
相关文章
|
6月前
|
人工智能 IDE Java
AI Coding实践:CodeFuse + prompt 从系分到代码
在蚂蚁国际信贷业务系统建设过程中,技术团队始终面临双重考验:一方面需应对日益加速的需求迭代周期,满足严苛的代码质量规范与金融安全合规要求;另一方面,跨地域研发团队的协同效率与代码标准统一性,在传统开发模式下逐渐显现瓶颈。为突破效率制约、提升交付质量,我们积极探索人工智能辅助代码生成技术(AI Coding)的应用实践。本文基于蚂蚁国际信贷技术团队近期的实际项目经验,梳理AI辅助开发在金融级系统快速迭代场景中的实施要点并分享阶段性实践心得。
1599 25
AI Coding实践:CodeFuse + prompt 从系分到代码
|
6月前
|
人工智能 自然语言处理 安全
氛围编程陷阱:为什么AI生成代码正在制造大量"伪开发者"
AI兴起催生“氛围编程”——用自然语言生成代码,看似高效实则陷阱。它让人跳过编程基本功,沦为只会提示、不懂原理的“中间商”。真实案例显示,此类项目易崩溃、难维护,安全漏洞频出。AI是技能倍增器,非替代品;真正强大的开发者,永远是那些基础扎实、能独立解决问题的人。
723 11
氛围编程陷阱:为什么AI生成代码正在制造大量"伪开发者"
|
7月前
|
人工智能 测试技术 开发工具
如何将 AI 代码采纳率从30%提升到80%?
AI编码采纳率低的根本原因在于人类期望其独立完成模糊需求,本文提出了解决之道,讲解如何通过结构化文档和任务拆解提高AI的基础可靠性。
1786 24
|
6月前
|
人工智能 机器人 测试技术
AI写的代码为何金玉其外败絮其中
本文分析AI编码看着好看其实很烂的现象、原因,探索行之有效的的解决方案。并从理论上延伸到如何更好的与AI协作的方式上。
276 3
|
6月前
|
人工智能 监控 Java
零代码改造 + 全链路追踪!Spring AI 最新可观测性详细解读
Spring AI Alibaba 通过集成 OpenTelemetry 实现可观测性,支持框架原生和无侵入探针两种方式。原生方案依赖 Micrometer 自动埋点,适用于快速接入;无侵入探针基于 LoongSuite 商业版,无需修改代码即可采集标准 OTLP 数据,解决了原生方案扩展性差、调用链易断链等问题。未来将开源无侵入探针方案,整合至 AgentScope Studio,并进一步增强多 Agent 场景下的观测能力。
2696 83
|
6月前
|
人工智能 安全 开发工具
C3仓库AI代码门禁通用实践:基于Qwen3-Coder+RAG的代码评审
本文介绍基于Qwen3-Coder、RAG与Iflow在C3级代码仓库落地LLM代码评审的实践,实现AI辅助人工评审。通过CI流水线自动触发,结合私域知识库与生产代码同仓管理,已成功拦截数十次高危缺陷,显著提升评审效率与质量,具备向各类代码门禁平台复用推广的价值。(239字)
1316 24
|
6月前
|
数据采集 人工智能 JSON
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
|
7月前
|
设计模式 人工智能 API
AI智能体开发实战:17种核心架构模式详解与Python代码实现
本文系统解析17种智能体架构设计模式,涵盖多智能体协作、思维树、反思优化与工具调用等核心范式,结合LangChain与LangGraph实现代码工作流,并通过真实案例验证效果,助力构建高效AI系统。
880 7
|
7月前
|
存储 人工智能 数据可视化
企业级 AI 模型无代码落地指南:基于阿里云工具链,从 0 到 1 实现业务价值
某汽车零部件厂商通过阿里云PAI、OSS等工具,实现无代码AI质检落地:仅用控制台操作完成数据治理到部署,质检效率提升3倍,模型周期从2月缩至2周。本文详解全栈可视化方案,助力企业零代码落地AI。
846 1

热门文章

最新文章

推荐镜像

更多