客观评价模型与主观DMOS分数拟合的分享与实用性探讨

简介: 本文深入探讨了视频质量的主客观评价方法,指出客观评价方法旨在精确描述人眼的主观感受。文章介绍了微帧在日常训练中使用的拟合方法,通过映射函数将客观指标与主观评价DMOS分数进行非线性拟合,以提高评价的准确性、一致性、稳定性和单调性。具体讨论了SSIM、PSNR和VMAF等常见客观指标的拟合公式,并总结了拟合方法在分析质量差异、统一客观指标和指导参数设置方面的实用价值。

之前我们发过一篇文章《综合多项指标评价视频质量,才能更接近主观感受》,指出了不同客观评价指标的“喜”与“忧”,并表示“在日常评价视频质量时,单看一组指标数据容易产生误差,需综合多项指标,才能更接近主观感受”,得到了业内众多同仁的认同。

但文中没有谈及人眼直接观测的主观质量评价,是因为主观评价的时间成本极高、观看环境要求苛刻、存在个体差异、且无法实时监测,不适合在日常中做编码器的视频质量评价标准。客观评价方法的诞生,就是为了精确化描述人眼的主观感受。

那么,客观评价方法的准确性,如何衡量?客观指标表现很好,主观感受就一定好吗?

虽然客观评价方法是让计算机尽量从人的主观视角出发来预测特定视频的评分,但不同客观评价指标与主观感受的符合程度差距不同,因此需要通过客观评价模型与主观评价DMOS分数的非线性拟合结果,基于预测的准确性、一致性、稳定性、单调性来衡量该客观评价方法的好坏。

· 准确性:指主观评价打分和客观评价指标分数的相似性;
· 一致性:指不应仅对某种类型的视频/图像表现良好,而应该对所有类型的视频/图像都可以表现良好;
· 稳定性:指对同一视频/图像每次评价的结果数值应该相同或误差在可接收的范围内;
· 单调性:指评价分数应该随DMOS分的增减呈现相应的单增或单减。

实际上,在日常实操过程中,主客观之间拟合的重要性不容小觑,除了能够衡量一个客观评价指标本身的好坏,更能帮助我们全方位地评估画面质量,使得各客观指标的主观感受趋于统一;另外,也能帮助我们为参数设置提供依据,在平衡压缩率与画质时,便于决策。

接下来就向大家分享一下微帧在日常训练中所做的拟合方法,并探讨一下其中的实用性。

主观质量评价

主观评分一般是由平均主观得分(mean opinion score, MOS)或平均主观得分差(difference mean opinion score, DMOS)来表示。

MOS,描述的是受损视频序列的平均主观得分,是通过对观察者的评分归一化来判断图像质量。
MOS公式.png

其中,N为参与评分的人数,S(i)为第i个人的评分

DMOS,描述人眼对无失真图像和有失真图像评价得分的差异取平均值,它更贴切的描述受损视频和原始视频的差异。
DMOS公式.png

微帧根据日常训练做的拟合方法:

映射函数一般情况下客观指标与主观指标都是单调函数,所以需要做一个映射函数,使得客观分尽可能与主观分接近,记客观分为x,主观分为y,也就是拟合某种函数关系:
映射函数.png

其中p为待拟合的参数

f(x;p)通常有3种形式:多项式、分式或者带一次项的Logistics曲线。由于Logistics曲线的拐点较少,数值稳定性要好于多项式和分式,所以一般都是用其进行拟合,其形式如下:
拟合fx.png

其中tanh(x)为双曲正切函数
tanhx.png

客观指标与主观指标的映射一般要考虑如下几个约束:

1)误差最小化

这是所有函数拟合都需要考虑的一个最基本的约束条件,就是要拟合后的函数值尽可能逼近主观分,写出公式的形式:
误差最小化.png

2)单调性一致

一般情况下我们需要客观分满足单调递增或单调递减,这个是很容易理解的,像SSIM这种客观分越大主观越好,对应的就是单调递增函数;或是MSE这种客观分越小,主观越好的就是单调递减。对于单调递减的情况只需要把客观分取个相反数就变成了单调递增,所以只需要考虑单调递增就可以了。写成公式的形式就是:
单调性一致.png

对于多项式或分式形式的拟合函数,极值点一般不好直接求解,简单的方法就是在定义域内均匀取点代替极值点,取的点越多计算量越多,准确性也越高;对于Logistics曲线则更为简单,由于其导函数为钟形曲线,所以其导数的最小值只会在两个端点,或是 x=-u/k 处取到,只要保证这3个点的导数都不小于0即可。

3)端点一致性

端点一致性就是考虑两种极端的情况客观分和主观分应该是一样的(客观分和主观分都提前归一化到[0,1]区间),也就是客观分为0或1的时候,对应的主观分也应该是0和1,写成公式的形式就是:
端点一致性.png

总体误差函数最终总体误差函数为一个带约束的形式:
总体误差函数.png

上式是一个带约束的最小二乘问题,可以转换为无约束的形式,然后用非线性最小二乘的求解算法进行求解。

使用上述方法对开源数据集进行拟合的结果:

  • 公式及图例中的DMOS实际=100 - DMOS标准,为了方便表达,均用DMOS代替。
  • 散点图中散点越集中,越接近拟合曲线,说明客观模型与主观感知的一致性越好。

① SSIM - DMOS
数据集采用的LIVE-release2中的jpeg和jpeg2000,拟合公式如下(下面两个公式均可):
SSIM-DMOS.png

②PSNR - DMOS
数据集采用的LIVE-release2中的jpeg和jpeg2000,拟合公式如下(下面两个公式均可):
PSNR-DMOS.png

③VMAF - DMOS
数据集采用的LIVE-release2中的jpeg和jpeg2000,拟合公式如下(下面两个公式均可):
VMAF-DMOS.png

最后总结并探讨实用性,表明几个观点:
1)拟合可更便捷分析质量差异。 客观分数与主观变化大致呈线性,才更便于理解分析质量差异。比如对于原始的PSNR,当分数在20~40之间变化时,主观变化明显,而分数在50分以上时,主观几乎没变化。尤其对于SSIM,平常我们计算出来的SSIM一般都在0.9以上,而两图之间的SSIM分数差距仅在0.00x或0.000x之间,相差太小,分析起来非常不方便,通过拟合做完映射之后,千分之一的对比就可以变成十分之一的对比。如下图,0.001的SSIM分值差异在主观上体现为约0.5的差异(图例进行了放大处理,实际中0.001的分值差在SSIM轴表现极小)。
拟合可便捷.png

2)拟合能将各个客观评价指标进行统一处理。各个客观指标对主观评价的尺度不同,SSIM的取值范围为0~1,PSNR的取值范围为0~+∞(一般会限制最大值为100),VMAF的取值范围为0~100,同样是相差0.01,在SSIM这里已经是非常巨大的差异,在PSNR和VMAF那里又是可以忽略的,这样单纯查看各指标分数来综合判断质量,准确度有所欠缺,但通过拟合就可以让各客观指标都映射到主观分数上,进行统一处理、判断。

3)为参数设置提供依据。单一给出一个客观分无法了解主观水平,比如80分以上可能主观还可以,95分以上表示非常不错。当我们调整了一个参数,SSIM提高了千分之一,对主观影响大概又有多少?但凭经验可能也无法判断。0.9分时候的千分之一,和 0.95分时候的千分之一,对主观影响也很不一样。通过映射到主观分数,可判断是否还有进一步向下压缩的空间,可以更好地指导编码器调整参数。

相关文章
|
8月前
|
机器学习/深度学习 数据采集 搜索推荐
多模型DCA曲线:如何展现和解读乳腺癌风险评估模型的多样性和鲁棒性?
多模型DCA曲线:如何展现和解读乳腺癌风险评估模型的多样性和鲁棒性?
186 1
|
机器学习/深度学习 监控 算法
信用风险评估评分卡建模方法及原理| 学习笔记
快速学习信用风险评估评分卡建模方法及原理。
信用风险评估评分卡建模方法及原理| 学习笔记
|
5月前
|
机器学习/深度学习 人工智能 算法
ChatGPT 等相关大模型问题之人工智能的过拟合 / 欠拟合的定义如何解决
ChatGPT 等相关大模型问题之人工智能的过拟合 / 欠拟合的定义如何解决
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。
126 0
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
|
8月前
|
存储 数据挖掘
R语言用GARCH模型波动率建模和预测、回测风险价值 (VaR)分析股市收益率时间序列
R语言用GARCH模型波动率建模和预测、回测风险价值 (VaR)分析股市收益率时间序列
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。
170 0
|
8月前
|
机器学习/深度学习 传感器 自然语言处理
时间序列预测的零样本学习是未来还是炒作:TimeGPT和TiDE的综合比较
最近时间序列预测预测领域的最新进展受到了各个领域(包括文本、图像和语音)成功开发基础模型的影响,例如文本(如ChatGPT)、文本到图像(如Midjourney)和文本到语音(如Eleven Labs)。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现,这些模型利用了类似于它们在文本、图像和语音方面获得成功的方法和架构。
145 1
|
8月前
R语言Lee-Carter模型对年死亡率建模预测预期寿命
R语言Lee-Carter模型对年死亡率建模预测预期寿命
|
8月前
|
机器学习/深度学习 算法 Python
R语言VaR市场风险计算方法与回测、用LOGIT逻辑回归、PROBIT模型信用风险与分类模型
R语言VaR市场风险计算方法与回测、用LOGIT逻辑回归、PROBIT模型信用风险与分类模型
|
8月前
|
算法
有监督学习的模型评估和选择
有监督学习的模型评估和选择