DCC论文解读 | 基于深度强化学习的视频比特码率控制算法

简介: 随着淘宝内容化的战略升级,直播、短视频等富媒体的表现方式在淘宝业务中落地开花,硕果累累。在互联网信道带宽不断波动的情况下,如何为用户提供高质量的视频播放体验,是各个多媒体服务商孜孜追求的梦想。每当新的技术出现的时候,大家都会积极探索是否可以应用这些新技术来解决目前存在的问题。

原创 淘系技术 淘系技术  4月2日


随着淘宝内容化的战略升级,直播、短视频等富媒体的表现方式在淘宝业务中落地开花,硕果累累。在互联网信道带宽不断波动的情况下,如何为用户提供高质量的视频播放体验,是各个多媒体服务商孜孜追求的梦想。每当新的技术出现的时候,大家都会积极探索是否可以应用这些新技术来解决目前存在的问题。


近几年深度强化学习在优化学习算法领域大放异采,为很多优化学习问题带来了很好的解决方案。信道带宽波动和视频码率控制这一问题本身也就是优化学习的一个问题。


那么是否可能应用深度强化学习来解决视频码率控制的优化学习问题呢?


淘系技术和达摩院,联合了新竹交通大学的彭文孝教授一起在这个问题上做了前沿技术的探索工作,并取得了一定的成果。相关成果在发表在了Data Compression Conference 2021下面就重点介绍我们在这一块的工作成果。



背景


随着4G网络的深入普及,目前超过80%的网络流量来自于视频应用, 其应用包括了视频点播直播和低延时视频会议等因此, 如何进一步提升的视频压缩比对于现今的视频应用而言就显得格外重要


视频压缩的目的是尽可能地减少码率的同时维持好的视频质量, 而码率控制算法就是用来平衡视频码率与视频质量的关键技术在真实应用中, 带宽是有限的, 为了充分地利用带宽又不超出带宽的限制, 我们会使用码率控制使得输出码率接近目标码率


譬如说, 在一秒的影片中有30, 目标码率为500kb/s, 码率控制就是要将500k比特分配至这30, 使得这30帧拥有最佳的视觉效果基于传统机器学习的优化算法如AVC/H.264, HEVC/H.265有不同的方法来解决码率控制的问题


虽然这些系统都是经过专家的精心设计, 但是由于算法实现的复杂度和对于编码效率的考量,最终的实现版本并不保证就是最佳效果的比特分配实现。

 

提出方法


深度强化学习网络近几年在优化学习算法领域大放异采。为此,我们提出了利用深度强化学习网络来学习比特分配的新思路。强化学习的目标是学习一种策略来最大化奖励函数, 对于比特分配的应用, 要学习的目标就是比特分配的策略, 而奖励函数可以是压缩后的失真以及码率的误差值。然而因为对于各式各样的影片, 我们无法有效正确的评估失真与码率差的权重。

因此我们提出了独立的两个失真以及码率误差的奖励函数, 当位比特配大于目标码率时, 我们独立采用码率差的奖励函数来引导策略学习, 使其能够回到码率的限制内。而当比特分配小于目标码率时, 我们独立采用失真的奖励函数来引导策略学习,使其能够使用更多的比特来减少失真。我们提出的基于强化学习的比特分配算法如下图所示:

image.png

提出的强化学习架构 


实验结果


对于比特分配, 因为希望实际码率能服从目标码率, 我们的主要评估方式是使用BD-PSNR, 其定义为在相同的码率下, 我们提出的方法相对于传统X265(anchor)在客观PSNR评估下的进步
从客观品质比较表可以观察到, 我们提出的方法无论在哪种常规的测试影片中, PSNR的值都有显著进步,整体平均进步量为0.94dB。转换BD-rate,我们的方法相对于X265在相同PSNR整体平均会有19.2%的比特率节省量且仅有6.2%的码率误差。主观品质比较表也显示说明我们的方法相对于传统X265有更好的视觉效果。基于该方法的论文将在Data Compression Conference2021上发表

 image.png

客观品质比较表


image.png

主观品质比较表 

未来的应用展望


本项研究工作展现了深度强化学习在视讯编码的潜力,相关的做法可以被扩展到更复杂的编码器控制或者针对过去难以优化的主观视觉品质进行优化。学术上也开始出现利用强化学习优化视讯编码器使得压缩过的视讯可利于物件辨认或者其他电脑视觉应用。我们相信深度强化学习在视讯编码应用还有更多的可能性在未来值得探索。



image.png

彭文孝博士于2005年在台湾新竹交通大学获得电子工程博士学位。他曾在美国加利福尼亚州英特尔微处理器研究实验室工作,并于2015年至2016年在美国纽约IBM Thomas J. Watson研究中心担任访问学者。

自2003年以来,他一直积极参与ISO/IEC MPEG数字视频编码标准化过程,并为HEVC标准,HEVC屏幕内容编码扩展和MPEG-4第10部分的可扩展视频编码(SVC)标准开发做出了贡献。他目前是新竹交通大学计算机科学系的教授,他在视频/图像处理和通信领域撰写了75篇技术论文,并有60多项标准贡献案。

他的研究兴趣包括基于学习的视频/图像编码,多媒体分析和计算机视觉。他曾担任2021 IEEE VCIP,2011 IEEE VCIP,2017 IEEE ISPACS和2018 APSIPA ASC等会议的技术联席主席; 2019 IEEE ICIP的出版主席; IEEE ICME/VCIP/PCS的区域主席/会议主席/Tutorial讲师。

他目前是IEEE电路与系统学会的视觉信号处理和通信技术委员会主席,IEEE JETCAS的副主编,IEEE TCSVT的副编辑,并担任过IEEE TCAS-II的客座编辑以及APSIPA特聘讲师。



🍊橙子说

点击左下角 “阅读原文”

即可获取【DCC论文完整版】

image.png

相关文章
|
12天前
|
机器学习/深度学习 存储 算法
【博士每天一篇论文-算法】Continual Learning Through Synaptic Intelligence,SI算法
本文介绍了一种名为"Synaptic Intelligence"(SI)的持续学习方法,通过模拟生物神经网络的智能突触机制,解决了人工神经网络在学习新任务时的灾难性遗忘问题,并保持了计算效率。
23 1
【博士每天一篇论文-算法】Continual Learning Through Synaptic Intelligence,SI算法
|
12天前
|
机器学习/深度学习 人工智能 算法
【博士每天一篇论文-算法】Collective Behavior of a Small-World Recurrent Neural System With Scale-Free Distrib
本文介绍了一种新型的尺度无标度高聚类回声状态网络(SHESN)模型,该模型通过模拟生物神经系统的特性,如小世界现象和无标度分布,显著提高了逼近复杂非线性动力学系统的能力,并在Mackey-Glass动态系统和激光时间序列预测等问题上展示了其优越的性能。
18 1
【博士每天一篇论文-算法】Collective Behavior of a Small-World Recurrent Neural System With Scale-Free Distrib
|
8天前
|
数据采集 机器学习/深度学习 算法
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
|
12天前
|
机器学习/深度学习 算法 物联网
【博士每天一篇论文-算法】Overview of Echo State Networks using Different Reservoirs and Activation Functions
本文研究了在物联网网络中应用回声状态网络(ESN)进行交通预测的不同拓扑结构,通过与SARIMA、CNN和LSTM等传统算法的比较,发现特定配置的ESN在数据速率和数据包速率预测方面表现更佳,证明了ESN在网络流量预测中的有效性。
11 4
|
12天前
|
机器学习/深度学习 存储 算法
【博士每天一篇论文-算法】Optimal modularity and memory capacity of neural reservoirs
本文研究了神经网络的模块化与记忆性能之间的关系,发现存在一个最佳模块化程度,能够在局部凝聚性和全局连接性之间实现平衡,从而显著提高神经网络的预测性能和记忆能力,并为设计神经网络和理解大脑的模块化组织提供了新的见解。
8 0
【博士每天一篇论文-算法】Optimal modularity and memory capacity of neural reservoirs
|
12天前
|
机器学习/深度学习 算法 数据挖掘
【博士每天一篇文论文-算法】A small-world topology enhances the echo state property and signal propagationlun
本文研究了小世界拓扑结构在回声状态网络(ESN)中的作用,发现具有层级和模块化组织的神经网络展现出高聚类系数和小世界特性,这有助于提高学习性能和促进信号传播,为理解神经信息处理和构建高效循环神经网络提供了新的视角。
18 0
【博士每天一篇文论文-算法】A small-world topology enhances the echo state property and signal propagationlun
|
8天前
|
算法 Python
【python】python基于 Q-learning 算法的迷宫游戏(源码+论文)【独一无二】
【python】python基于 Q-learning 算法的迷宫游戏(源码+论文)【独一无二】
|
1月前
|
机器学习/深度学习 存储 数据采集
强化学习系列:A3C算法解析
【7月更文挑战第13天】A3C算法作为一种高效且广泛应用的强化学习算法,通过结合Actor-Critic结构和异步训练的思想,实现了在复杂环境下的高效学习和优化策略的能力。其并行化的训练方式和优势函数的引入,使得A3C算法在解决大规模连续动作空间和高维状态空间的问题上表现优异。未来,随着技术的不断发展,A3C算法有望在更多领域发挥重要作用,推动强化学习技术的进一步发展。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|
2月前
|
机器学习/深度学习 分布式计算 算法
在机器学习项目中,选择算法涉及问题类型识别(如回归、分类、聚类、强化学习)
【6月更文挑战第28天】在机器学习项目中,选择算法涉及问题类型识别(如回归、分类、聚类、强化学习)、数据规模与特性(大数据可能适合分布式算法或深度学习)、性能需求(准确性、速度、可解释性)、资源限制(计算与内存)、领域知识应用以及实验验证(交叉验证、模型比较)。迭代过程包括数据探索、模型构建、评估和优化,结合业务需求进行决策。
34 0

热门文章

最新文章