再夺全球顶级竞赛CVPR NTIRE冠军，打造更好用户体验，淘宝拥有哪些内容技术？（1）-阿里云开发者社区

不知不觉间，内容电商似乎已经成为人们生活中不可或缺的存在：在闲暇时间，我们已经习惯于拿出手机，从电商平台的直播间随手下单自己心仪的商品。

尽管优质的货品、实惠的价格、精致的场景布置、有趣的内容输出都是非常关键的影响因素，这些也必须基于两个前提：画质要高清、播放要流畅。曾经，有不少商家和主播因为直播间画质较差的问题而苦恼，不了解如何实现高画质开播。

在一系列前沿音视频技术的加持下，淘宝内容技术团队解决了这个问题。

下图是一个直播间画质体验极致打磨案例，主播通过团队自研的一系列音视频技术，包括视频编码、视频增强处理、视频质量评价等，实现了超低码率的 1080p 高清直播：

左：720p 直播；右：超低码率 1080p 直播。

同样还有短视频画质体验极致打磨案例，通过团队自研的上述音视频技术，实现了视频清晰度和纹理细节的大幅提升：

左：增强前；右：增强后。

不难发现，在上述案例中，改造后的画面质感变得更好，从「标清」飞跃到了「超清」，人像肤色也变得更自然，连商品色彩都更加准确了。这种肉眼可识别的提升，都来自团队提供的音视频技术能力加持。

上述提到的一系列自研音视频技术，包括视频编码器（淘宝自研的 S265）、视频增强方案（STaoVideo）、无参考视频质量评价模型（MD-VQA）以及媒体处理系统（TMPS），并通过接入低延时传输网络 GRTN，为淘宝的直播和短视频提供底层核心技术，打造业界领先的音视频体验，尤其是视频画质和流畅度。

近年来，图像和视频处理的一系列技术也经历了巨大的变革，包括超分处理、噪声去除等等。这些技术都是为了实现更好的画质服务，同时也希望尽量降低内容生产、处理和分发过程的总体成本。

但从技术层面上说，如何分析、定位视频内容存在的问题并找到有针对性的改造方法，仍然是一个复杂的过程。而所有的视频内容处理方法，都基于一个非常重要的前置环节：视频质量评价。

一场聚焦「视频质量评价」的顶级比拼

在视频内容行业规模不断增长的背景下，全球范围内的众多机构开始围绕视频处理的一系列前沿命题开展竞赛，希望以领先技术推动行业进步。近年来，「视频质量评价」这一命题受到的关注度也不断攀升。

CVPR NTIRE（New Trends in Image Restoration and Enhancement）是计算机视觉和视频领域最具影响力的全球性赛事，今年的赛事由苏黎世联邦理工学院计算机视觉实验室主办。往年赛事覆盖许多图像和视频处理的经典任务，比如图片和视频超分、图片抖动去除、噪声去除等，吸引了全球众多技术团队的踊跃参与。

今年的 CVPR NTIRE 比赛增设了一个全新的方向：视频质量评价，且只设置了单个赛道，即「无参考视频质量评价」。

主办方构建了包含 1,211 个真实应用场景的视频的数据集，对其进行包括色彩、亮度、和对比度增强、去抖动、去模糊等增强处理，并对处理后的视频进行打分作为 GT（ground truth，真实的有效值）。参赛团队通过各自技术方案对上述视频打分，与 GT 越接近名次越高。

本场比赛云集了国内外顶级的几十只参赛队伍，包括字节、快手、网易、小米、Shopee 在内的知名科技企业，以及北京航空航天大学、新加坡南洋理工大学等高校。来自淘宝音视频技术团队的同学组成「TB-VQA」队伍，经过激烈的角逐，从 37 支队伍中脱颖而出。团队所提交的质量评价方法 TB-VQA 在主得分（Main Score）、SRCC（Spearman Rank Order Correlation Coefficient）及 PLCC（Pearson Linear Correlation Coefficient，SRCC 和 PLCC 越高表明与 GT 越接近）三项指标均位居第一。

CVPR NTIRE 2023 视频质量评价比赛排行榜。

此次冠军是团队继 MSU 2020 和 2021 世界编码器比赛、CVPR NTIRE 2022 视频超分与增强比赛夺魁后，再次在音视频核心技术的权威比赛中折桂。

众所周知，从参考视频可用性的维度出发，视频质量评价一般可以分成三类：全参考视频质量评价、部分参考视频质量评价、和无参考视频质量评价。为什么本场比赛要将「无参考视频质量评价」设置为唯一的赛道？想必这一点令许多人感到好奇。

这与近年来互联网内容视频化的趋势密不可分，从生活、娱乐到学习，视频都已经成为了很多人获取信息的第一介质。相比于文字，视频的理解门槛更低，人脑对于视觉信息的处理速度也比文字更快。其中，UGC 视频内容几乎占据了整个互联网视频流量中的 70% 到 80%。人们既消费这些 UGC 视频内容，也在创造着自己的「作品」。任何人都可以使用一台手机拍摄、上传短视频，也可以开通自己的直播账号，分享自己的生活。

但 UGC 视频的质量往往是参差不齐的。首先是因为其质量受制于拍摄设备、拍摄环境、拍摄技巧等因素，即使视频内容的制作方极具经验且原始视频质量非常高，一旦经过平台的各种处理、分发环节或是其他用户的二创，消费者在另一端看到的视频效果都有可能打折扣。

在缺乏理想的视频参考源的质量评价场景逐渐成为主流的趋势下，无参考视频质量评价作为质量评价的主要的技术手段，在过去的几年里越来越受到广泛关注。这也是 CVPR NTIRE 设置「无参考视频质量评价」赛道的出发点之一。

那么，为什么淘宝内容技术团队能够一举拿下这场比赛的冠军？接下来，让我们深入了解一番冠军方案。

夺冠背后的 VQA 技术

目前，无参考视频质量评价的主流方法包括：基于图像识别或者图像质量评价任务的预训练模型来提取视频的帧级特征、考虑时序上的相关性回归特征或者进一步结合时域特征、以及针对视频失真进行端到端的特征表征学习等。

在本次比赛中，TB-VQA 团队提出的方法基于端到端的特征表征学习，并且考虑到近年来 Swin Transformer 在 CV 领域取得巨大成功，使用 Swin Transformer V2 替换较为传统的卷积神经网络（CNN）骨干网络 ResNet 提取空域特征。同时，为了更好地融合时空域特征，在时空特征融合模块中，TB-VQA 团队引入了一个 1×1 卷积层，它加深了从预训练网络的中间阶段提取的空间特征，以弥补浅层和深层特征之间的差距。此外，为了解决常见的质量评价数据集规模过小、大模型容易过拟合的问题，TB-VQA 团队同时在空域和时域两个维度进行数据增强，提高模型性能。

模型设计

如图 1 所示，TB-VQA 团队所提出的无参考视频质量评价模型的框架，包括空域特征提取模块、时域特征提取模块和时空特征融合回归模块。其中，空域特征模块提取空间失真相关特征，时域特征提取模块提取运动相关信息，此外，考虑到运动信息对失真感知的影响，团队进一步融合时空域特征，然后通过特征回归映射到最终的质量分数。

TB-VQA 模型的网络架构示例。

具体而言，这一框架的设计基于以下思考：

语义特征作为重要的空域特征经常用于质量评价，其描述图像中物体的物理特性、物体之间的时空关系、以及物体的内容信息等，属于图像的高维特征。对于不同的图像内容，语义特征会影响人眼的视觉感知：人眼通常无法容忍纹理丰富的内容（例如草坪、地毯）的模糊，而对纹理简单的内容（例如天空、墙面）的模糊相对不敏感。综上考虑，该架构利用从预训练的 Swin Transformer V2 网络倒数第二层 Transformer 模块输出的特征作为帧级的空间域特征。
手机拍摄时的抖动会导致视频发生时域失真，并且，其无法被视频空域特征有效地描述。因此，为了提高模型的准确度，该架构利用预训练的 SlowFast 网络获取视频片段级的运动特征，作为时域特征表征。
由于不同层空域特征之间存在较大的差异，对其进行直接拼接不利于时空特征融合，因此该架构先对倒数第二层输出特征进行卷积处理，然后再与最后一层输出的空间特征融合以及空域特征进行融合，并通过两层全连接层回归得到视频片段级质量分数，如图 2 所示。

时空域特征融合与回归。

数据增强

由于本次比赛官方提供的训练数据集共包括 839 个视频，不足以训练基于 Transformer 的模型。因此，TB-VQA 团队从数据集增强策略和大型数据集预训练两个方面入手，进一步提高模型的性能。

视频质量评价方法常采用在图像中随机 crop 固定大小 patch 的方式进行空间数据增强。作为对比，TB-VQA 团队同时考虑考虑空间和时间数据增强，如图 3 所示。

时空域数据增强示例。

其中，整个视频会被分成 T 个视频片段（每秒一个片段）。提取空域特征时，每个视频片段随机抽取 1 帧。同时，为保留帧间的时间关联性，抽样帧之间的时间间隔保持不变。

此外，考虑到 LSVQ 视频质量评价数据集有 38,811 个视频样本，是目前最大的开源质量评价数据集。因此，TB-VQA 团队先在 LSVQ 数据集上对模型进行预训练，之后基于特定的任务以相对小型的数据集微调模型。

「特别重要的是，不管是面向比赛的数据集，还是面向日常业务的海量内容，视频质量评价的模型都需要强大的泛化能力，以识别不同的视频质量以及各种各样的视频场景。」淘宝音视频技术的参赛同学总结本次参赛的经验时表示。

值得注意的是，这次比赛的冠军方案 —— 视频语义、失真、运动多维信息融合方案，是 TB-VQA 团队同学在日常业务研发中探索出的新方法。基于日常业务的经验积累，尽管本场比赛从赛题发布到最后提交结果大概只有一个月的时间，TB-VQA 团队还是交出了一份满意的答卷。

此前，团队自研了无参考视频质量评价模型 —— MD-VQA（Multi-Dimensional Video Quality Assessment），综合视频的语义、失真、运动等多维度信息衡量视频绝对质量的高低。目前，MD-VQA 已经全面应用于包括淘宝直播、淘宝信息流、淘宝逛逛等淘宝内容业务，「量化」并监控视频业务的大盘画质变化，快速、精准地筛选出不同画质水位的直播间和短视频，帮助提升平台内容画质。

以淘宝直播为例，MD-VQA 可提供分钟级的在线质量监控能力，能够快速、精准地筛选不同画质水位的直播间，协助线上低画质 bad case 的挖掘分析，实时提醒主播画质问题方面的瓶颈问题。

淘宝音视频技术团队负责人总结道：「无论是短视频还是直播，都存在一个问题 —— 源头的画质并不一定是最好的，比如用户可能使用一款低端手机设备去拍摄、开播。面向这种应用场景，我们希望为淘宝甚至业界提供的无参考视频质量评价方案，能够发挥类似 VMAF 在有参考质量评价方法的影响力。」

再夺全球顶级竞赛CVPR NTIRE冠军，打造更好用户体验，淘宝拥有哪些内容技术？（1）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件