优酷发布最大工业级超高清视频数据集,超分辨率算法大赛落幕-阿里云开发者社区

开发者社区> 开发者小助手-bz8> 正文

优酷发布最大工业级超高清视频数据集,超分辨率算法大赛落幕

简介: 在这场算法挑战赛上,不仅有刚刚出现在 CVPR 2019 的最新算法,还出现了年仅 18 岁的获奖选手。
+关注继续查看

在刚刚结束的 2019 云栖大会上,我们看到了阿里平头哥首款 AI 芯片「含光 800」、青橙奖和阿里数字经济的新布局。在会场的另一端,9 月 27 日,一场颇具挑战性的 AI 算法大赛也落下了帷幕。


仅依靠算法,我们就可以把 270p 的视频「重建」成 1080p 的画质吗?在人工智能技术发展的今天,被称为「超分辨率」技术正逐渐走向实用化。「阿里巴巴优酷视频增强和超分辨率挑战赛」就是一场寻找最强视频超分算法的比赛。


本次大赛自今年 5 月开始共历时 6 个月,吸引了 1514 支队伍参赛。最终有 6 支队伍进入决赛,在杭州的云栖大会上进行了最后的比拼。昨天,比赛决出了冠军:来自中国科学技术大学的陈嘉乐、单超炜成为了本届大赛的冠军。


微信图片_20211202011450.jpg


对于视频内容进行图像增强,在超分辨率数据竞赛上开创了一个全新的领域。在这场比赛之后,优酷还开源了业内最大的视频超分辨率数据集。


最接近实际的超分辨率挑战赛


超分辨率是计算机视觉的经典研究方向,有关图像增强的论文经常出现在 AI 顶会上。人们总是希望能够「还原」低质量视频的细节内容,提高视频的清晰度,或在保证视频质量的情况下降低网络带宽的占用。该技术在工业界有着重要的实用意义,它甚至能够帮助我们改善早期胶片视频的质量和清晰度。


虽然可供使用的方法很多,本次比赛依然为参赛选手们带来了很大挑战。在决赛前,所有选手都接受了采访,大家对于比赛的感受达成了一致:「这次比赛非常真实、需要处理的数据量巨大——比之前参加的其他数据竞赛的数据要多几个数量级。完成这样的任务,非常有成就感。


在数据集上,选手们在这里面对的是 1000 个视频,每个视频的时间长度为 4-6 秒。每个样本由低分辨率视频和高分辨率视频组成的视频对构成。低分辨率视频为算法的输入,高分辨率视频为增强和超分后的真值。其中,初赛视频 250 个,复赛视频 750 个。


微信图片_20211202011454.jpg

阿里文娱资深算法专家,摩酷实验室负责人王晓博主持了决赛答辩


这场挑战赛还原的现实世界场景,也是众多参赛选手此前从未见到的——在视频中的台标、字幕对于超分辨率算法来说是非常难以还原的内容。但正是贴近真实情况的内容才能带来成就感:选手们提出的算法都是能够真正落地的技术。


在这次比赛中,选手们需要训练样本对视频增强和超分模型进行建模,对测试集中的低分辨率视频样本预测高分辨率视频。其中,高分辨率视频来自优酷高清媒体资源库。低分辨率视频的生成模型是模拟实际业务中的噪声模式。


对于算法恢复的视频和抽帧结果,本次比赛采用 PSNR 和 VMAF 两种评价指标。对于上传的完整视频,评估程序将计算 PSNR 和 VMAF 两种指标,均采用逐帧计算:PSNR 指标得分占 80%,VMAF 指标占 20%。另外还需要在限定的时间内输出结果,这对模型处理的效率提出了要求。


在决赛阶段,组委会还为每支队伍单独提供了阿里云 ECS 的实例,配置为 8 CPU, 60G 内存,双 GPU NVidia P100。参赛队伍需要在标准硬件条件下复现从训练到预测的代码及模型,保证预测过程能在 ECS 上独立运行。


微信图片_20211202011457.jpg


本次竞赛的评委包括阿里巴巴达摩院高级研究员,IEEE Fellow 张磊、阿里文娱资深算法专家,摩酷实验室负责人王晓博、阿里巴巴资深算法专家任海兵、哈工大教授左旺孟、阿里视频云总经理朱照远、阿里资深技术专家江文斐等人。


张磊点评道:「本次大赛完成了开创性的探索,将实际应用场景带入了学术界的经典问题上,为学术界带来了很好的启发,弥补了学术界相关研究的不足。


中科大夺冠


在本次比赛中夺冠的队伍是来自中国科学技术大学的「Avengers Assemble」。该团队在初赛和复赛中一直保持领先,并顺利取得了最后的冠军。


这支队伍的两名成员均为中国科学技术大学智能媒体计算实验室的研三学生。其中,陈嘉乐主要研究强化学习和计算机视觉,单超炜主要研究图像处理和增强。他们的研究也得到了中国科学技术大学陈志波教授、刘森博士,微软亚研高级研究员谭旭等人的指导。


在决赛答辩中,陈嘉乐对于团队采用的方法,以及目前超分辨率技术的现状进行了介绍。目前在业内,超分辨率方向上的算法主要从残差结构、多分支结构等方法通过增加参数量提升效果。与此同时,也有研究者提出了循环结构的模型希望通过参数共享降低计算开销,而渐进式结构模型则通过分阶段的方式进一步提升了超分辨率的处理效果。最近,人们也在研究注意力机制和基于 GAN 的超分辨率方法。


与图片的超分辨率不同,视频的超分辨率中,由于图像本身带有运动信息,参考帧和目标帧存在一定偏差,所以在进行处理时我们必须要寻求对齐。另外,视频模糊和场景切换问题也需要得到妥善解决。


「目前超分辨率与去噪方向的研究现状主要是:三维卷积、循环结构、滤波器预测。」陈嘉乐说道。


冠军团队使用的方法基于目前最为先进的超分辨率算法:在今年的计算机视觉顶会 CVPR 2019 上,商汤提出了 EDVR,相对于此前的业内最佳方法(RCAN),EDVR 算法视频超分辨率的结果能让我们看到更多细节,这一方法也实现了业内顶尖水平。作者提出了一种新的网络模块「PCD 对齐模块」,使用 Deformable 卷积进行视频的对齐,整个过程可以端到端训练。而在挖掘时域(视频前后帧)和空域(同一帧内部)的信息融合时,作者提出了一种时空注意力模型进行信息融合。


微信图片_20211202011501.jpg


陈嘉乐等人认为,在竞赛任务中,EDVR 还存在感知能力不够强、时序信息不充分、特征表达不高效等问题。中科大团队针对这三个方向进行了自己的改进:


  • 在对齐模块中,EDVR 采用了多尺度的可变卷积,冠军团队借鉴了何恺明等人提出的 Non Local Neural Network,采用 Separate Non Local 把维度进行了分离,从而减少参数量,提升网络的感受野。
  • 在时序信息问题中,冠军团队的算法在融合模块中使用 Temporal and Spatial Attention + 3D Convolution,加入了 3D 卷积,从而捕获时序上的信息。
  • 在特征表达的问题上,体现在重建模块上,给 ResNet Block 增加了 Channel Attention,提升了 0.3db 的指标。


其他决赛队伍


获得第二名的团队由清华大学的金侃、厦门大学的詹文鹏、江西财经大学的张东阳组成。他们采用了 RCAN 模型的改进算法,通过损失函数的调优和对于数据集的处理实现了很好的效果,在复现比赛中排名第二。他们提出在视频场景切换帧位置通过数据增强方式,训练类似帧的方法引起了评委们的关注。


微信图片_20211202011505.jpg

金侃在决赛答辩中介绍了自己团队的方法


这次比赛中使用到的模型存在台标和字幕,这对于所有团队来说都是很大的挑战:不断变化的文字和背景图像毫无关联,区别明显,这会导致深度学习算法难以对其进行学习。金侃等人认为,在未来的研究中应当使用自然语言处理的方式对文字单独进行处理。这一思路得到了来自优酷的评委们的肯定。


此外,入围决赛的另一支团队「我的圣光啊」格外引人关注,参加决赛答辩的梅康夫年仅 18 岁,是来自香港中文大学(深圳)的研一学生。他所在的团队五位成员来自五所不同大学,平均年龄仅为 23 岁。最终这一组选手获得了「极客奖」。


微信图片_20211202011508.jpg

梅康夫在决赛答辩中


除梅康夫以外,该团队的其他四个成员是队长雷天悟(来自多伦科技)、副队长高晓东(华南理工大学在读硕士),以及华东师范大学的李俊诚和上海大学在读硕士朱雅琴。


这支团队采用 RCAN 方案作为主体结构的视频超分辨率增强模型。其创新点在于引入自扩展残差学习,同时也引入了对于视频任务的 YUV 损失函数。值得一提的是,虽然需要对视频进行处理,该队伍并没有考虑时域的问题,只进行单帧的图像增强。选手认为多帧关联的考虑会降低网络性能,所以希望把单帧的网络做到极致。只用单帧处理就能打入决赛(前六)不得不说是非常亮眼的成绩。


推出视频超分和增强数据集


本次竞赛中,优酷不仅为大家展示最前沿超分辨率算法提供了平台,而且还提出了出了业界最大、最具广泛性的数据集,包括不同内容品类,不同噪声模型、不同难度等。



优酷表示,该数据集包含 10,000 个样本,数据总量达到 3T。其中采用的噪声参数完全是模拟实际业务中的噪声模式,研究人员可以真正的在实际场景中打磨算法。


「增强和超分辨率在多媒体内容里是较为经典的问题,」王晓博表示。「我们希望通过打造这一数据集促进工业界和学术界研究的发展,让工业界和学术界更加紧密地结合。让视频更加清晰。


这些视频均来自优酷高清媒资库,优酷拥有这些视频的知识产权。据悉,该数据集的样本计划分 3 次对外公开:第一批数据集在 1000 个视频左右,已在本次比赛中使用;比赛结束后,即将公开的约有 2000 条视频;剩余的 7000 个视频将在后续公开。


本数据集包括超分和增强视频数据、评测程序和数据说明三个部分。 数据每个样本由低分辨率视频和高分辨率视频组成的视频对构成。低分辨率视频为算法的输入,高分辨率视频为增强和超分后的真值。每个视频的时间长度为 5 秒左右。绝大部分高清数据的分辨率是 1080P,大约 300M。由于是 4 倍超分辨率,低质视频分辨率为 270P,大约 19M。少量高清数据的分辨率是 2048×1152,低质视频分辨率为 512×288。视频数据为无压缩的 y4m 格式。


本次赛事上第一批公开的 1000 个视频,总共数据量就已超过 300GB。


微信图片_20211202011512.jpg

示例样本截图,左边为高清视频截帧,右边为低质视频截帧。

 评测程序代码示例也已包含在数据集中。


在本次比赛中,选手们也发现了在实际业务场景中,PSNR 和 VMAF 指标并不能真实反应人眼对于视频质量的感知。PSNR 的少量提升也许意味着人眼对其并无体感差别。这也是当下视频处理行业普遍遇到的问题。


目前,优酷正着眼于研发更符合人类视觉特性的质量评价指标。在未来,优酷超分大赛的评价准还会进行新的变革,人眼真实感知将会成为算法评价标准,这对于参赛队伍来讲会更具挑战,但也更有意义。


文为机器之心报道,转载请联系本公众号获得授权

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
9941 0
【视频特辑】数据分析不卡顿,十亿数据0.3秒搞定!看看Quick引擎是如何做到的吧~
报表加载慢、分析卡顿导致思路被打断...常常会给数据分析师造成很大困扰。 不如试试Quick引擎,十亿数据只需0.3秒就可以完成数据分析!
2105 0
视音频数据处理入门:RGB、YUV像素数据处理【转】
转自:http://blog.csdn.net/leixiaohua1020/article/details/50534150 ===================================================== 视音频数据处理入门系列文章: 视音频数据处理入门:RGB、YUV像素数据处理 视音频数据处理入门:PCM音频采样数据处理 视音频数据处理入门:H.
899 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
10878 0
【阿里云视频云创新挑战赛】视频目标分割,下一个视频算法技术爆发点?
近年来随着智能移动终端和互联网的快速发展,视频数据呈现指数级增长。视频目标分割拥有众多的消费落地场景,特别是最近火爆的视频会议、视频直播、短视频制作等场景中的应用极为广泛,因此如何为用户打造更智能、更优质、更沉浸的体验,实现对视频中兴趣对象的高精度自动分割,成为了非常热门的研究方向。由阿里云视频云主办的全球视频云创新大赛,在算法赛道重点攻克视频目标分割方向,就此,我们展开了解这项技术的发展、价值和关键要素。
152 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13679 0
阿里巴巴达摩院夺得首届“马栏山杯”国际音视频算法优化大赛【画质损伤修复赛道】冠军
首届“马栏山杯”国际音视频算法优化大赛颁奖盛典暨高峰论坛于9月8日举行。这场由中国工业与应用数学学会、中国网络社会组织联合会作为指导单位,湖南省互联网信息办公室、湖南省科学技术协会主办,中国(长沙)马栏山视频文创产业园、芒果TV承办的算法盛事,云集了全球优秀的算法精英。一大批来自高校、科研院所、互联网企业才子才女们,共1294支队伍报名参赛,其中北京大学34支,清华大学25支,麻省理工学院等国外顶级名校37支。
505 0
1777
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载