11.51 基于幻象技术的异质人脸图像合成
基于稀疏特征选择的方法,以及现有的大部分算法在合成人脸图像时,多是采用线性组合的方式。线性组合,即线性加权平均,可以看作一低通滤波器,会过滤掉一些高频细节信息,如图2所示。此外,由于现有的异质人脸图像合成算法对图像分块多采用相邻块覆盖的方式,故在最后融合生成一整张人脸时需要将重叠区域平均,这也会带来一定的模糊效应,过滤掉部分高频细节信息。
那么是否能够通过学习输入测试照片到残差图像之间的映射关系来学习丢失的高频细节信息?而人脸幻象 (face hallucination),即人脸超分辨重建,一般是在中低频的初始估计基础上加上学习得到的高频细节信息,这与我们的任务不谋而合。受人脸幻象思想启发,因此提出如何在初始估计基础上学习得到丢失的高频信息以进一步提高合成人脸图像的质量。
受两步人脸幻象[13]框架启发,提出一种两步框架来进一步增强合成图像的高频细节。所提出的框架步骤为(以人脸画像合成为例):第一步,利用第二章中介绍的基于稀疏特征选择的人脸图像合成方法合成一张初始估计,这里也可以用现有的其他基于线性组合的方法;第二步,利用支撑向量回归(Support Vector Regression,SVR) 学习照片和画像高频细节之间的映射关系,并对输入的照片进行高频信息的估计;最后将两步分别得到的初始估计与残差图像进行叠加得到最终输出的合成画像。下面主要介绍基于支撑向量回归的幻象部分,即残差补偿。
这里定义的高频信息为图像块灰度值减去块均值。支撑向量回归模型的输入特征取为图像块的灰度值减去块均值,输出为对应模态图像块中心像素的灰度值减去块均值。为了进一步提高学习的效率和效果,首先将图像块聚类,然后每个类分别学习一个 SVR模型。测试阶段,对于每个图像块,首先根据聚类中心选择距离最近的类对应的支撑向量回归模型,进而进行高频信息的回归,算法框图如图 3 所示。
训练阶段,首先对训练画像 - 照片对分成一些均匀大小的块,块与块之间保持一定的重叠区域;然后用 K-means 聚类方法将这些块聚成 M 类,每一类利用支撑向量回归训练得到一回归模型。我们采用 LIBSVM( 采用默认参数 ) 进行训练。测试阶段,先对输入照片进行与训练阶段同样的分块,提取特征;然后对于每个块根据与各个类中心的欧式距离寻找最近邻的类,随后用对应的 SVR 模型进行回归得到输出高频图像对应块中心的高频值。将所有合成的这些高频信息重新排列即可得高频细节图像。最后将所得高频细节图像加到初始估计上,即可得到最终的合成结果。