超火的漫画线稿上色AI出新版了!无监督训练,效果更美好 | 代码+Demo

简介:
本文来自AI新媒体量子位(QbitAI)

给喜欢的动漫形象建个了收藏夹,里面收集她的各种图片……懂,谁没几个喜欢的动漫萌妹呢。

一些手绘线稿也很可爱,但黑白配色总会略显单调。

54c3118da623c180146957ee0e0e2206adc9695c

 请记住这张线稿

半年前线稿上色AI style2paints的破壳曾让自动上色火了一阵。好消息是,昨天,升级版本style2paints 2.0也问世了!

Demo也一并放出,用户可以随意试玩~

4b9ceeb45ff8ce810683a5df546818d660c2c927

 Demo界面

据作者说,style2paints 2.0比一代效果更好,而且模型的训练过程是无监督的。

效果惊艳

只需线稿一张,轻点一下,就能给你珍藏的心爱萌妹上个色。

63b1ada175ad7e3bfc896547c158e386f19420ca

 上面线稿的转换效果

赞赞的!不仅如此,换一张其他的彩色参考图,也能将线稿转化成另一种颜色风格。

比如我们输入下面这张参考图:

2d80492889e8ef6cc20fdbaba398a63792a22cb9

上面那张示例图就变成了下面的效果——

5bb7136307285d45b472b26d17a6182620656188

还可以从参考图中选取颜色,然后用笔在线稿的某个区域上点一下,AI就会按你的提示去重新填充——

9f68b7b6e1cba6d66e8d78ae163e396068163988

支持微调的线稿上色软件不止一家,不过作者介绍说,和同类软件相比,style2paints的“提示笔”是最精确的,用户可以用3×3的笔迹,在1024×2048的画面上,控制13×13的区域。

为了确保最终画作颜色协调,style2paints还玩了一点小心机:用户不能自己输入颜色,只能从参考图上选。

 使用教程

并不简单

玩得尽兴之后,你可能会说,风格迁移嘛,我们见得多了~

但是,把黑白照片变成彩色照片,和把没有阴影高光的线稿变成彩色图画难度不同。

这种由纯线条构成的草图不包含图案的明暗和纹理。也就是说,AI需要自动脑补出这些信息。

何况style2paints作者对线稿上色的期望,实在是比较高,并不是在线条之间填一些颜色就完事了:

在一幅好漫画里,妹纸的眼睛要像星系一样闪亮,脸颊要弥漫着红晕,皮肤要精致迷人。

831995e81bd46b051d441a71405678febb91f0ba

 大概是这个效果吧

这怎么做得到!

style2paints 2.0目前还没有相关论文放出,只有代码可供参考。不过,今年6月问世的第一版其实效果还可以,实现了基于语义信息迁移的颜色提示,让上色效果更加和谐。

具体的原理可以看当时的论文Style Transfer for Anime Sketches with Enhanced Residual U-net and Auxiliary Classifier GAN
,来自苏州大学的三位作者Lvmin Zhang, Yi Ji, Xin Lin介绍了怎样将集合的剩余U-Net样式应用到灰度图中,并借助分类器生成的对抗网络(AC-GAN)自动为图像上色。生成过程迅速,效果尚好。

论文地址:
https://arxiv.org/abs/1706.03319

不一样的2.0

style2paints第一版推出之后非常火,量子位的不少朋友都上手玩过。

不过,他们的主要竞品paintschainer不停迭代,后来,上色的效果渐渐超越了style2paints 1.0,于是,作者们也坐不住了,开始研究新方法,更新了一版出来。

那么,2.0和1.0有什么不一样吗?

巧了,国外的网友也很关心。作者在Reddit上回答说,和上一版相比,style2paints 2.0大部分训练都是纯粹无监督,甚至无条件的。

也就是说,在这个模型的训练过程中,除了对抗规则之外没有添加其他的人工定义规则,没有规则来强迫生成器神经网络照着线稿画画,而是靠神经网络自己发现,如果遵照线稿,会更容易骗过鉴别器。

pix2pix、CycleGAN等同类模型为了确保收敛,会对学习对象添加l1 loss,鉴别器接收到的数据是成对的[input, training data]和[input, fake output]。而style2paints 2.0模型的学习目标和经典DCGAN完全相同,没有添加其他规则,鉴别器收到的也不是成对的输出。

作者说,让这样一个模型收敛其实是很难的,何况神经网络这么深。

不过你看,结果还不错。

线稿上色的江湖

线稿上色的程序,其实有很多,比如说:

Paintschainer
https://paintschainer.preferred.tech/index_en.html

Deepcolor
https://github.com/kvfrans/deepcolor

Auto-painter
https://arxiv.org/abs/1705.01908

除了paintschainer,其他的同类产品其实作者是不太看得上的。

他说,很多亚洲论文都号称能迁移漫画风格,但是仔细看论文,会发现他们所谓的“新方法”就是个调整过的VGG,虽说VGG在风格迁移任务上普遍表现不错,但是用在漫画上,效果总是不怎么好。

还是得靠GAN,而且得允许用户上传风格参考图,像Prisma那样从莫奈梵高里选可不行,莫奈梵高又不会画漫画。

试试不?

上手玩一下Demo:
http://paintstransfer.com/

论文还没出来,不过可以看源代码呀:
https://github.com/lllyasviel/style2paints

作者对上一版的介绍:
https://zhuanlan.zhihu.com/p/29331219

本文作者:夏乙 安妮
原文发布时间:2017-12-29 
相关文章
|
1月前
|
人工智能 C++ iOS开发
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
2162 5
|
1天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
30 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
14天前
|
机器学习/深度学习 存储 人工智能
【AI系统】感知量化训练 QAT
本文介绍感知量化训练(QAT)流程,旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点(FakeQuant)模拟量化误差,并在训练中最小化这些误差,使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理,以及QAT与PTQ的对比,提供了实践技巧,如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
54 2
【AI系统】感知量化训练 QAT
|
14天前
|
机器学习/深度学习 存储 人工智能
【AI系统】训练后量化与部署
本文详细介绍了训练后量化技术,涵盖动态和静态量化方法,旨在将模型权重和激活从浮点数转换为整数,以优化模型大小和推理速度。通过KL散度等校准方法和量化粒度控制,文章探讨了如何平衡模型精度与性能,同时提供了端侧量化推理部署的具体实现步骤和技术技巧。
40 1
【AI系统】训练后量化与部署
|
10天前
|
人工智能 数据挖掘
AI长脑子了?LLM惊现人类脑叶结构并有数学代码分区,MIT大牛新作震惊学界!
麻省理工学院的一项新研究揭示了大型语言模型(LLM)内部概念空间的几何结构,与人脑类似。研究通过分析稀疏自编码器生成的高维向量,发现了概念空间在原子、大脑和星系三个层次上的独特结构,为理解LLM的内部机制提供了新视角。论文地址:https://arxiv.org/abs/2410.19750
51 12
|
29天前
|
人工智能 安全 JavaScript
Open Interpreter:AI 赋能终端!在终端中对话AI模型进行编程,通过运行代码来完成各种计算机操作任务
Open Interpreter 是一个让语言模型运行代码的强大工具,提供了一个类似 ChatGPT 的界面,支持多种编程语言和丰富的功能。
86 7
Open Interpreter:AI 赋能终端!在终端中对话AI模型进行编程,通过运行代码来完成各种计算机操作任务
|
13天前
|
人工智能 PyTorch 测试技术
【AI系统】并行训练基本介绍
分布式训练通过将任务分配至多个节点,显著提升模型训练效率与精度。本文聚焦PyTorch2.0中的分布式训练技术,涵盖数据并行、模型并行及混合并行等策略,以及DDP、RPC等核心组件的应用,旨在帮助开发者针对不同场景选择最合适的训练方式,实现高效的大模型训练。
50 8
|
17天前
|
人工智能 文字识别 API
OpenSearch & AI 开放平台,实现0代码图片搜索!
本文主要介绍了如何利用阿里云的 OpenSearch 和 AI 搜索开放平台来构建一个无需编写代码就能完成的图片搜索功能。
63 12
|
12天前
|
人工智能 搜索推荐 安全
数百名研发人员用通义灵码,33%新增代码由AI生成,信也科技研发模式焕新升级
目前,信也科技数百名研发人员正在使用通义灵码,周活跃用户占比70%,新增代码中有33%由通义灵码编写,整体研发效率提升了11%,真正实现了数百研发人员开发效能的全面提升。
|
26天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI 系统与程序代码关系
本文探讨了AI系统与程序代码之间的关系,通过PyTorch实现LeNet5神经网络模型为例,详细介绍了AI训练流程原理、网络模型构建方法、算子实现的系统问题以及AI系统执行的具体计算过程。文章不仅解释了神经网络的前向传播和反向传播机制,还深入分析了算子在AI框架中的作用及其底层实现,包括卷积层的具体计算和优化问题。此外,文章对比了使用PyTorch与直接使用cuDNN+CUDA编程实现神经网络模型的差异,强调了AI框架在提高开发效率、自动化内存管理和实现自动微分等方面的重要性。
32 1
下一篇
DataWorks