从质量评价到编码、增强处理,淘系音视频技术的演进之路
视频质量评价之后,视频编码、增强处理等环节的技术水平同样对用户的最终视频体验起到决定作用。
这些也是团队始终在思考的方向:「在包括视频内容的供给和分发等环节的整个视频业务生命周期中,视频处理技术对于整体视频的画质影响最为重要。」而消费者对于视频画质的需求是越来越高的,比如要兼顾较高的清晰度和播放的流畅度,也要控制从生产到下发的整体成本。这意味着平台的视频处理技术演讲必须面对千变万化的市场需求和业务体量爆炸式增长所带来的各种挑战。
为此,团队支持短视频、直播等内容的整体解决方案保持着持续、高速的迭代。
淘宝音视频技术团队主要承载着其中的视频处理技术,尤其是保障视频高画质和流畅度。通过视频编码器 S265、视频增强方案 STaoVideo、无参考视频质量评价模型 MD-VQA、媒体处理系统 TMPS 以及低延时传输网络 GRTN 的接入,打造业界领先的音视频体验。通过持续的技术打磨和算法创新力求高质量、低成本赋能淘宝内容业务,助力淘宝内容化战略,所沉淀的平台技术和产品能力亦可被集团其它业务复用。这些多年来沉淀的技术能力,也曾经在多个音视频核心技术的国际权威比赛中折桂。
在视频编码方面,团队自研的奇点编码器 S265 和 S266,在 MSU 视频编码器大赛中连续两届取得佳绩。
MSU(莫斯科国立大学)世界视频编码器大赛是视频编码领域最权威的全球性顶级赛事,迄今已由 MSU 的 Graphics & Media Lab 连续举办了十七届,其评测报告被业界广泛认可,吸引了包括 Google、Netflix、Intel、Nvidia、腾讯、字节、华为等国内外知名科技企业参与,代表了行业发展的风向标。
S265 和 S266 相比业界流行的开源编码器 X265、VVEnC 等,在编码速度、编码质量和编码延时等多方面均有明显突破,联合内部团队参加了 MSU 2020 和 2021 连续两届世界视频编码器大赛,取得多个赛道第一(如表 2 和表 3 所示)。
MSU 2020 Main FullHD 1 fps YUV-PSNR 排名。
MSU 2021 Main FullHD 1 fps YUV-PSNR 排名。
具体而言,团队研发的 H.265 编码器 S265 在码率控制、快速算法、编码工具实现、工程加速几个方面进行了创新,实现了对 X265 编码器的超越,在 1fps 速度档位下 YUV-PSNR 指标领先 35%;团队自研的 H.266 编码器 S266 在 S265 编码器的基础上,进一步在符合 VVC 标准(VVC 是近年来颁布的、继 H.265/HEVC 之后的最新国际视频标准)的范畴下进行优化,实现了对比 H.265 开源软件 X265 very slow 档 50% 的编码效率提升(同等画质下,码率减少 50%)。
S265 编码器经过多年的产品化打磨,已全面应用于包括淘宝直播、淘宝信息流、淘宝逛逛在内的淘宝内容业务,并以较低的带宽和资源消耗实现高清画质编码。经过 S265 编码器压缩后,普通手机在 3G 网络也可顺滑观看 1080p 高画质,最新发布的手机亦可支持 4k 30FPS 超高清直播。S266 编码器也已在规划落地中,用户不久将可在淘宝 APP 中更流畅地观看高清的 VVC 视频。
在视频增强处理方面,团队自研的视频超分方法 TaoMC2 曾在 CVPR NTIRE 2022 视频超分与增强比赛的三个赛道获得两冠一亚的成绩(如表 4 所示)。
CVPR NTIRE 视频超分与增强比赛自 2020 年起已举办三届,在工业界和学术界均产生了重大的影响。CVPR NTIRE 2022 视频超分与增强比赛吸引了腾讯、字节、华为等知名科技企业,中科院、北大、港中文、ETH 等科研机构参赛,其中很多参赛者都有多年的参赛经验,竞争激烈。
CVPR NTIRE 2022 视频超分与增强比赛包含三个赛道,其中一个赛道的任务保持分辨率不变的视频增强,另外两个赛道叠加超分问题。
CVPR NTIRE 2022 视频超分与增强比赛排行榜。TaoMC2 在赛道 1 上超第二名 0.01dB、第三名 0.13dB,且在 15 个测试集中的 9 个视频上表现最佳,说明方法具有较好的泛化性。同时,TaoMC2 在赛道 2 上超出其他队伍 0.1dB 以上,在赛道 3 上仅次于第一名 0.01dB。
在实际业务应用方面,团队打造了视频增强方案 STaoVideo,服务于淘宝直播和短视频,分别帮助在直播生产端和短视频转码服务端提升画质。作为媒体处理系统 TMPS(Taobao Media Processing System)中最主要模块之一,STaoVideo 包含差异化的普惠高清和智美高清视频增强算子,通过传统算法和深度学习结合,在考虑计算成本的前提下,给用户最好的画质体验。在播放端,STaoVideo 的超分增强方案广泛用于诸如弱网等场景下的低分辨率视频传输、保障低传输带宽下用户播放的高清画质体验。
全面内容化战略下,淘宝内容技术的探索实践
音视频技术之外,淘宝也拥有全面的内容领域基层技术布局,包含内容理解、内容搜索和内容推荐等领域,覆盖计算机视觉、自然语言处理、多模态和 AIGC 等。这些都是淘宝内容化战略的核心技术,团队长期在这些方向有深度的打磨,沉淀出一定的技术领先性。
在淘宝全面内容化的战略背景下,短视频与直播等富媒体内容,在兴趣种草、内容消费、商品展示、视频买家秀等各个维度展现出巨大的优势,从而也在淘宝的流量场里扮演着愈发重要的角色。与商品不同,内容存在制作成本高、时效性强、生命周期短、用户行为稀疏等特点,这给内容生产与分发均带来了较大的挑战。
面对这些挑战,淘宝内容技术团队在内容理解与内容分发上深耕细作,在解决实际业务难题的同时,也将其中一些创新的工作总结沉淀,在 CVPR、AAAI 等国际顶级学术会议发表了多篇论文,包括在内容理解方面关于「商品定位」的工作。
团队设计了双分支跨模态定位架构,能够同时处理全局视觉以及语音文本两路信息,并进行充分交互来完成商品坐标的准确定位;同时,还首次提出了利用迁移学习的无监督域自适应商品定位。该方案已经在直播智能切片、短视频挂品等业务场景中上线使用,也在通用数据集与淘宝数据集都达到了业界最优水平,该工作《DATE: Domain Adaptive Product Seeker for E-commerce》发表在 CVPR 2023。
团队也针对开放词表检测问题展开了深入研究,针对以往方法在知识提取与迁移过程中的信息损失和低效性问题,提出了基于目标感知注意力掩码的知识提取模块(OAKE)和全局 - 区块 - 目标多层蒸馏金字塔结构(DP),在多个公开数据集上超过了 SOTA(State-Of-The-Art)方案,论文《Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection》发表在 CVPR 2023。
DATE 网络结构示意图。
在以上领域之外,内容技术团队还拥有前端、客户端、服务端和数据科学团队,负责面向亿级消费者提供服务的淘宝首页、淘宝信息流、淘宝逛逛等核心业务场域,通过规模化内容供给和高效率内容运营,提高消费的丰富度,辅助消费决策;面向千万级商家、品牌、机构、达人,提供内容创作工具、内容运营平台和内容商业化解决方案,打开流量新增量的更大空间,助力商家触达更广泛的消费人群。团队同时也支撑阿里巴巴电商板块各业务线的内容管理,提供高效、低成本、灵活的业务架构,协助各业务线实现内容创新和运营的转型升级。
内容化是当前淘宝的五大战役之一。淘宝内容业务包含多样化的真实场景,具备足够的技术挑战。淘宝内容化的大环境为技术同学提供了持续迭代技术、实时赋能业务和创造价值的舞台。依托当前技术储备,适当投入高水平的国际赛事,对技术同学来说是一个很好的面向业界前沿学习交流和练兵的机会。团队亦可籍此沉淀技术领先性,不断打磨技术,在这场内容化战役中更好地为用户体验保驾护航。