近日,在国际视频标准MPEG Technical Requirements工作组关于MPEG Video Coding for Machine(机器视觉视频编码,以下简称“MPEG-VCM”)的技术征集提案评测中,阿里巴巴达摩院联合香港城市大学提交的方案在机器视觉任务中取得2项第一,是唯一一个斩获多项第一的提案。
达摩院与香港城市大学的提案获得两项第一
视频编码是视频信号存储和传输的基础,在上世纪八十年代开始进入标准化发展,经过多代的迭代优化,目前最新最高效的面向人眼的视频编码标准为H.266/VVC标准。
但随着自动驾驶,智慧城市和工业互联网等人工智能场景的发展,面向机器的视频编码需求急剧上升,业界迫切需要全新的视频编码技术。
为此,MPEG于2019年7月成立VCM工作组,推进机器视觉视频编码标准化工作,吸引了阿里巴巴、爱立信、诺基亚、浙江大学及ETRI等国内外企业和机构的参与。
今年,MPEG正式向全球发布MPEG-VCM技术征集书,共接收到来自全球16家企业和机构的提案,将为后续标准制定提供重要参考。
在测评阶段,所有提案在多项机器视觉任务和多个数据集上进行测试,以BD-rate和BD-rate(Pareto)指标衡量各个提案相对于H.266/VVC标准的码率节省。
最终,达摩院联合香港城市大学的提案(Proposal 02)在物体检测任务中取得两项性能第一。
达摩院提出了全新的VCM框架,联合自适应时空域编码方案JAST,该方案包括面向机器的预分析、面向机器的预处理、自适应时域变采样、自适应空域变采样和核心视频编码器五大模块,最终有效提升面向机器视觉任务性能的压缩效率。在标准测试条件的物体检测任务中,JAST方案可获得平均39.04%的性能提升。
达摩院研究员叶琰表示:“随着超高清视频、AR/VR、自动驾驶、智慧城市和工业互联网等新应用的爆发,视频编码技术既要面向人眼也要面向机器,我们将持续深度参与国际视频标准的制定,用创新技术为各行各业降低带宽成本。”
过去几年,达摩院积极参与国际视频标准的制定,在ITU-T和INCITS等重要国际视频标准组织中担任主席和副主席职位,达摩院自研的Ali266在全球编解码顶级赛事MSU 2021比赛中获得了全高清FullHD客观性能赛道的8项第一和主观赛道的冠军。