不久之前,CLIC 挑战赛比赛结果公布:在不同基准下,来自国内创业公司图鸭科技的团队 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上获得第一名,腾讯音视频实验室和武汉大学陈震中教授联合团队 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)指标上占据领先优势,位列第一。xvc,评分较高的团队中,xvc 的解码速度最快。
在这篇文章中,我们对第一名图鸭科技的解决方案进行了编译介绍,内容采自论文《Variational Autoencoder for Low Bit-rate Image Compression》。
1.摘要
我们展示了一种用于低码率图像压缩的端到端可训练图像压缩框架。我们的方法基于变分自编码器,包含一个非线性编码器变换、均匀量化器、非线性解码器变换和后处理模块。压缩表征的先验概率通过使用超先验自编码器的拉普拉斯分布来建模,并与变换自编码器进行联合训练。为了去除低码率图像的压缩失真和模糊,我们提出了一种基于卷积的高效后处理模块。最终,考虑到 CLIC 挑战赛对码率的限制,我们使用一个码率控制算法来对每一个图像自适应性地分配码率。在验证集和测试集上的实验结果证明,使用感知损失训练出的该优化框架能够实现最优的 MS-SSIM 性能。结果还表明该后处理模块可以提高基于深度学习的方法和传统方法的压缩性能,在码率为 0.15 时最高 PSNR 达到 32.09。
2. 本论文提出的图像压缩框架
图 1:本论文使用的变分自编码器架构图示。卷积参数表示为:滤波器数量 × 卷积核高度 × 卷积核宽度/上(下)采样步幅,其中 ↓ 表示下采样,↑表示上采样。AE、AD 分别表示算术编码器和算术解码器。
图 2:超先验自编码器的架构展示。
图 3:(a)残差块。(b)两个卷积层和 6 个残差块组成了后处理架构。
3. 实验结果
表 1:在 CLIC 2018 验证集上的评估结果。
表 2:在 CLIC 2018 测试集上的评估结果。