SSIM评分的范围从0(完全不相似)到1(完全相同),并衡量两个图像的感知相似度。虽然MSE和MAE纯粹是数学概念,但SSIM分数与人类感知更加相关。在表中,阴影精灵的得分接近1,表明它们与平均观察者几乎相同,而彩色图像则并非如此。
作为第三次也是最后一次评估,我们要求设计团队对207个为莎拉生成的精灵进行评论。他们的反馈意见大多是积极的,称赞了着色精灵的质量并丢弃了彩色精灵。总之,他们发表了四点评论:
- 几乎一半的着色精灵有用,可以在20到30分钟内完善。彩色精灵不可用。
- 该算法在单个动画中效果不稳定,这可能会使子画面失效。
某些姿势下即使是着色精灵也会产生可怕的结果。
将色彩数量固定为使用6和42种颜色时,会引入一些不必要的噪音。
下图说明了观点2、3和4。
八帧动画中的身体明亮度不一致
使用与训练中使用的姿势相差太大的姿势会产生较差的结果。
在量化为6和42种颜色数量时,会引入一些噪音。在轮廓中可以很容易看到。
结论
在这项工作中,我们评估了使用现代生成模型来解决像素艺术生成问题的效果。即,我们采用了改进的Pix2Pix架构,取得了一定程度的效果。更详细地讲,着色精灵被艺术团队认为是有用的,而彩色小精灵则被认为是无用的。
对于着色精灵,团队提出平均需要20到30分钟来完善每一个精灵,比从头开始绘制一个要少10到30分钟。保守的估计是,每个有用的精灵都会节省10分钟的劳动时间,这意味着生产力提高了约15%。
尽管具有更多的颜色,但对于设计团队而言,区域精灵所花费的时间并不多于着色精灵。正如首席美术师所解释的那样,动画中的区域更容易预测,并且可以轻松地从一个精灵复制到另一个精灵。因此,不生成它们不是大问题。
从技术角度来看,这项工作证明了当前模型可以有效地用作创造性任务的助手。其他动漫领域也发现了类似的结论,动漫领域主要是由平坦而丰富的颜色组成,并且比像素艺术具有更少的限制。此外,Pix2Pix模型适用于现实世界的图片,也适用于像素艺术和动漫数据,这证明了其普适性。
未来的工作
我们当前的系统基于Pix2Pix模型,基于像素。但是,我们的问题可以根据图像分割名词来表述为按像素分类。这样的思路可能会大大改善我们的结果。
有时,简化问题可能使其更易于处理。区域精灵共有42种颜色,但每个精灵仅出现大约十二种颜色,并且这些颜色占据所有精灵中很大一部分。将问题缩小为更具选择性的阴影可能会减轻生成器的工作压力。
Pix2Pix创始于2017年。自那时以来,GAN取得了一些进步,包括更好的损失函数,注意力机制和改进的方法。使用更先进的技术可能会大大改善结果。
U-Net和Pix2Pix的参考资料
O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation” 2016
P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-to-image translation with conditional adversarial networks” 2017