图鸭科技获CVPR 2018图像压缩挑战赛单项冠军,技术解读端到端图像压缩框架

简介: CHALLENGE ON LEARNED IMAGE COMPRESSION 挑战赛由 Google、Twitter、Amazon 等公司联合赞助,是第一个由计算机视觉领域的会议发起的图像压缩挑战赛,旨在将神经网络、深度学习等一些新的方式引入到图像压缩领域。据 CVPR 大会官方介绍,此次挑战赛分别从 PSNR 和主观评价两个方面去评估参赛团队的表现。

不久之前,CLIC 挑战赛比赛结果公布:在不同基准下,来自国内创业公司图鸭科技的团队 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上获得第一名,腾讯音视频实验室和武汉大学陈震中教授联合团队 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)指标上占据领先优势,位列第一。xvc,评分较高的团队中,xvc 的解码速度最快。


微信图片_20211129210655.jpg


在这篇文章中,我们对第一名图鸭科技的解决方案进行了编译介绍,内容采自论文《Variational Autoencoder for Low Bit-rate Image Compression》。


微信图片_20211129210725.jpg


1.摘要


我们展示了一种用于低码率图像压缩的端到端可训练图像压缩框架。我们的方法基于变分自编码器,包含一个非线性编码器变换、均匀量化器、非线性解码器变换和后处理模块。压缩表征的先验概率通过使用超先验自编码器的拉普拉斯分布来建模,并与变换自编码器进行联合训练。为了去除低码率图像的压缩失真和模糊,我们提出了一种基于卷积的高效后处理模块。最终,考虑到 CLIC 挑战赛对码率的限制,我们使用一个码率控制算法来对每一个图像自适应性地分配码率。在验证集和测试集上的实验结果证明,使用感知损失训练出的该优化框架能够实现最优的 MS-SSIM 性能。结果还表明该后处理模块可以提高基于深度学习的方法和传统方法的压缩性能,在码率为 0.15 时最高 PSNR 达到 32.09。


1638191288(1).png


1638191311(1).png

2. 本论文提出的图像压缩框架


微信图片_20211129210920.jpg


图 1:本论文使用的变分自编码器架构图示。卷积参数表示为:滤波器数量 × 卷积核高度 × 卷积核宽度/上(下)采样步幅,其中 ↓ 表示下采样,↑表示上采样。AE、AD 分别表示算术编码器和算术解码器。


微信图片_20211129210947.jpg

图 2:超先验自编码器的架构展示。


微信图片_20211129211014.jpg

图 3:(a)残差块。(b)两个卷积层和 6 个残差块组成了后处理架构。


3. 实验结果


微信图片_20211129211056.jpg

表 1:在 CLIC 2018 验证集上的评估结果。


微信图片_20211129211117.jpg

表 2:在 CLIC 2018 测试集上的评估结果。


相关文章
|
6月前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
157 1
|
机器学习/深度学习 算法 数据可视化
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
292 0
|
机器学习/深度学习 人工智能 达摩院
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(1)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
174 0
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(2)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
175 0
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(3)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
177 0
|
机器学习/深度学习 编解码 自然语言处理
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
206 0
|
机器学习/深度学习 存储 人工智能
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型(1)
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型
109 0
|
存储 机器学习/深度学习 人工智能
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型(2)
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型
138 0
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
139 0
|
机器学习/深度学习 自动驾驶 前端开发
ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%
ICRA 2022杰出论文:把自动驾驶2D图像转成鸟瞰图,模型识别准确率立增15%
141 0
下一篇
无影云桌面