作者:杨璨乾、美光
出品:大淘宝技术
音视频与图像技术篇
推荐语:在互联网视频化的大趋势下,电商内容化逐渐成为互联网的重要战场。音视频技术是手淘全面内容化的重要技术基石之一,其核心本质是用普惠化的方式提升内容消费的体验,在清晰度、流畅度方面提供逼近广电级的音画体验,同时也为内容增强、内容生成等带来更多可能。过去一年相关基础能力的布局初具雏形,在直播的开播规范,视频前处理增强,编码传输,播放渲染和后处理等全链路技术方面都先后进入深度优化的阶段,在技术的深度,支持场景的丰富度,以及底层技术的可复用性上都取得了进步,持续提升包括直播、逛逛、首页信息流等业务的消费者体验。
—— 阿里巴巴资深技术专家 刘旭
近日,阿里巴巴大淘系技术与上海交通大学图像通信与网络工程研究所(简称图像所)合作论文《AdaInt:Learning Adaptive Intervals for 3D Lookup Tables on Real-time Image Enhancement》被国际顶级会议CVPR2022接收,全部代码及模型均已开源。
作为计算机视觉领域的三大顶级会议之一,CVPR是每年学术界的重要事件之一。CVPR全称为The Conference on Computer Vision and PatternRecognition,即计算机视觉与模式识别会议,是由IEEE主办的国际最高级别的学术会议。该会议每年在世界范围内召开一次,讨论内容涵盖了与图像或视频模式提取或识别相关的广泛主题,常见主题包括对象识别、目标检测、图像分割、图像恢复和图像增强等。今年的CVPR会议接收了来自世界各地总计8,161份的有效论文投稿,经过会议主席和众多审稿人的努力,共计2,067份论文投稿被会议接收,总接收率约为25.33%。
本文首次提出了通过深度学习对输入图像自适应地学习具有非均匀布局的三维颜色查找表,从而对输入图像进行高效色彩增强的创新性技术,并在学术界公开仿真数据集上取得了最优客观指标(PSNR)的同时做到了当前运行速度最快。文中提到的色彩增强技术具有效果优、速度快的特点,可做到对4K视频的实现高效处理并提升其色彩饱和度对比度,故而适用于实时流媒体场景,可用较普惠化的方式帮助改善直播间的画质呈现。
753论文地址:https://arxiv.org/abs/2204.13983
项目地址:https://github.com/ImCharlesY/AdaInt
作者单位:大淘宝技术,上海交通大学,大连理工大学
背景
色彩增强是图像处理的基本内容之一,是相机成像系统的核心部件之一,并广泛体现在数字图像成像链路中的各阶段应用中。其主要目的是通过处理原始图像,使其更加符合人的视觉特性或显示设备的展示要求。近年来,主流的基于深度学习的色彩增强方法将增强流程简化归并到单个全卷积网络中。通过数据驱动下的端到端学习,这类方法可以在公开数据集上取得先进的色彩增强效果。然而,全卷积范式也给网络的推理,特别是在超高分辨率的图像(如4K及以上分辨率)上,带来了高昂的时空计算复杂度,限制了这些方法的实际应用。
最新的研究工作[1]表明,大部分的色彩增强/美化算子(如白平衡、饱和度控制、色调映射、对比度调整、曝光补偿等)属于点运算的范畴。变换算子的参数会根据图像整体或局部统计特性来确定,但变换算子本身对图像的操作和编辑是位置无关、像素独立的。它们的级联在整体效应上近似等效为单次三维颜色变换,即一个图片的函数映射式。该映射将输入图像中的一个颜色点映射为同一颜色空间或不同颜色空间的另一个颜色点。一个直观的思路是将一系列增强变换算子合并为单个颜色变换算子,从而减少一系列变换操作带来的计量,并减小累积误差对增强效果的影响。
在这种情况下,三维查找表(3D Lookup Tables,3D LUTs)是一种极具价值的数据结构,它通过遍历变换函数的所有可能输入颜色组合,记录对应的输出颜色结果,可以对一个复杂的颜色变换函数进行高效建模,在计算机硬件设计、相机成像系统中有广泛的应用。然而,完整输入空间的遍历往往带来沉重的内存开销,更常用的方式是稀疏查找表:对输入空间进行稀疏采样,仅记录采样点的对应输出;对于不被采样到的点,其变换输出由最近邻采样点的输出线性插值获得。因此稀疏查找表实质是对原始变换函数的一种有损近似,其变换能力的损失体现在通过分段线性函数拟合原始变换函数中潜在的非线性部分。
带你读《2022技术人的百宝黑皮书》——CVPR2022 | 开源: 基于间距自适应查找表的实时图像增强方法(2) https://developer.aliyun.com/article/1246794?groupCode=taobaotech