让AI读懂视频广告有多难?这道算法题4000多人挑战,冠军赢走了10万美元现金

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 在今年的腾讯广告算法大赛中,腾讯广告给全球算法圈出了一道难题,冠军最高奖励 10 万美元,赛题还入选了顶会挑战赛。什么赛题有如此含金量?谁拿走了冠军大奖?昨天,决赛结果已经出炉……


进入全民视频时代以来,广告行业的需求也在发生日新月异的变化。

国内移动互联网大数据公司 QuestMobile 最近发布的《2020 年中国互联网广告市场洞察》报告显示,从广告形式上看,视频类信息流增速更快,趋向成为主流广告形式。

微信图片_20211206104610.jpg

图源:https://mp.weixin.qq.com/s/ikrOOmOiKkxl6ZI1b9UHRQ

与此同时,用户对广告的创意要求也越来越高:大批视频广告在播放的前 3 秒就会被 60% 的观众划走,一个新广告面世不到一周就没有人再去看了。

为了迎合这种消费习惯的变化和创意需求的升级,视频广告创作者需要在短时间内创作出大量有吸引力的广告。这意味广告行业的生产模式需要经历一场变革。 和其他很多行业一样,这种变革可以通过解放人力来完成。 具体到视频广告,AI 算法可以做什么呢?

一方面,AI 可以承担一些重复性工作,比如批量生产各类素材。另一方面,一些非重复性的创意工作也可以尝试交给 AI,比如让它自行理解广告内容亮点,并以此为依据生成一个新广告。

但要把这些都做好,首先要让 AI 把视频广告吃透,也就是我们常说的视频深度理解。

而这件事情,腾讯广告其实早就在做了,而且深知其中的价值与挑战。腾讯广告多媒体 AI 中心总监刘威坦言,视频深度理解难到令人绝望,「假如说图像识别已经开发到中年的水平,我觉得视频还是婴儿水平视频的 knowledge domain 太大了,你在某个地方加一个小东西,特征空间里看到的就已经差了很多,所以算法非常脆弱」。类似的前沿算法研究,腾讯广告内部还有很多。

在向这些前沿算法发起挑战的同时,腾讯广告还会通过各种形式将产、学、研各界聚集到一起,共同推进行业技术的演进,始于 2017 年的「腾讯广告算法大赛」就是其中之一。

这一比赛一直聚焦业务最关心的问题,今年的赛题更是直面令人头疼的视频广告深度理解,而且是高难度的「多模态视频广告秒级解析」。

由于赛题颇具挑战,出题方将其分成了两个赛道:视频广告秒级语义解析」(赛道一)和「多模态视频广告标签」(赛道二)。


这两个赛道难在哪儿呢?

先来说说没那么难的赛道二。这个赛道以视频、音频、文本三个模态作为输入,要求选手针对测试视频样本预测出视频在呈现形式、场景、风格等三个维度上的标签。

微信图片_20211206104615.jpg


刚才说过,视频理解本身就是一个难题,而本次比赛不仅要求理解视频,还要和音频、文本等模态的信息综合到一起来理解,实现多模态融合。这一考法令选手叫苦不迭。

微信图片_20211206104619.jpg


然而,赛道一难度还要更高。这一赛题同样以视频、音频、文本三个模态作为输入,但要求选手将测试视频进行「幕」的分段,并且预测出每一段在呈现形式、场景、风格等三个维度上的标签。「幕」即场景,可能包含多个镜头,因此也叫「语义超镜头」。这些镜头在语义上相关,描绘并传达一个高级概念。比如下图中第一个场景(幕)就包含四个镜头,共同阐述「打电话」这一高级概念。如何将这些镜头归入一个场景、概括出其高级语义信息显然是一个非常综合的问题。

微信图片_20211206104622.jpg


此外,「多模态视频广告秒级解析」这个主题是腾讯广告从真实的业务需求中提炼出来的,在算法领域尚未被提出,也很少有人进行过深入研究,相应的数据、代码、可参考文献都比较少,这也增加了比赛的难度。怪不得有不少选手反馈说,「跑 baseline 都费劲」。

与赛题难度相匹配的是高额奖金池:本届大赛冠军可以拿到 10 万美元的现金奖,总奖金池高达百万级
为什么这个赛题如此重要?腾讯公司副总裁蒋杰在决赛致辞中提到,「随着5G 技术的逐渐普及,以视频为载体的内容越来越受用户欢迎,如何深度理解视频广告内容,挖掘其潜在价值,无疑成了当下广告行业发展的重点。而细粒度理解视频时序内容,对于广告业务具有积极意义,可以真正帮助广告主降本提效,让广告更有温度。

今年的比赛吸引了上千家高校和企事业单位的4300余名选手报名。在昨天举行的决赛中,赛道一的冠军由「GZ」战队摘得,他们将视频广告秒级语义解析这个任务分成了 Temporal Segmentation 和 Proposal Tagging 两个子任务来完成,具体方案如下:

微信图片_20211206104625.jpg

赛道一冠军解决方案概览。

赛道二的冠军则由「挥霍的人生」战队摘得,他们使用了基于 stacking 的方案,预测时可以并行提取每个独立部分的特征,模型迭代速度快。

除了现金奖励,通过此次大赛,选手还有机会现场参与 2021 ACM MM Grand Challenge Session(以下简称 ACM 多媒体挑战赛),同更多算法专家做进一步的现场交流。

参加腾讯广告算法大赛还有机会拿到顶会挑战赛门票?没错,因为本届赛事与 ACM Multimedia 实现了强强联合,两道赛题都入选了 ACM 多媒体挑战赛。

ACM Multimedia 是多媒体领域最重要的国际会议,也是中国计算机学会(CCF)认证以及多媒体研究领域评级中唯一的 A 类国际顶级会议。为了促进工业界和学术界的交流,大会设置了 ACM 多媒体挑战赛环节。可以说,这是多媒体领域工业界和学术界交流活动中最有影响力的一个

那么,这个挑战赛关注什么样的议题呢?ACM 多媒体挑战赛主席李锡荣给出的答案是:工业界未来 5 年到 10 年关心的问题

眼光放得长远,难度自然不会低,所以大赛也没指望选手通过一场比赛就把问题解决掉。 「(比赛)解决方案不见得在一两年内就能商业化或者产品化,它实际上是对于未来技术的一种探索。」李锡荣补充说。

换句话说,ACM 多媒体挑战赛探讨的问题必须要有前瞻性和实用性,这与腾讯广告算法大赛的两道赛题不谋而合。

同时,赛题入选顶会挑战赛也意味着,今年腾讯广告算法大赛的国际影响力进一步扩大,比赛中诞生的解决方案、代码、数据集等资源将为国际算法圈提供重要参考

当然,这些资源也将为视频广告创意业务的发展带来新的助力。腾讯广告内部与之相关的就有多尺寸智能裁剪、 模板视频自动剪辑、 视频创意智能混剪等多项视频广告业务。 多尺寸智能裁剪是指利用一种规格的视频生成多种规格的视频,比如输入 16:9,输出 9:16、4:3、1:1 等多种格式。这里面涉及智能关键帧截取、焦点跟随、视频去填充、图像分割、背景融合等多项视频理解任务。

举个例子,在把一个竖版视频切换成横版的时候,AI 要截取画面的一部分来保持满屏铺开,这就需要 AI 识别出画面的焦点是什么(如下图中的一家三口),然后进行焦点跟随。这一功能有多实用?要知道,各个投放平台对视频广告的规格要求是不一样的,一个广告视频可能需要 20 多种规格。在没有 AI 介入的情况下,这无疑是一项低效的重复性工作。

微信图片_20211206104631.jpg


模板视频自动剪辑是指复用之前积累的优秀素材快速剪出新的创意。此时,广告主可能只需要提供若干张商品图,而视频的「黄金前 3 秒」、转场、行动指引等片段都可以从素材库调取。AI 算法可以为这个素材库提供更加精准的标签(比如一个优秀的前 3 秒素材讲了什么内容),从而在再创作时更加精准地匹配新广告需求。到目前为止,腾讯广告已经积累了 10000 多套这样的模板,复用模板每天生产的视频量在 10 万以上

视频创意智能混剪是指根据输入的一段视频剪出不同时长的版本,同时还要保留视频广告的吸引力、信任力、说服力和行动力。

举个例子,现在有一段 30 秒的产品介绍广告,需要让 AI 把它剪成 15 秒的。首先,AI 要把视频切成若干场景,然后从这些场景中找到那些可以吸引用户观看、增加用户信任、向用户展示产品优惠信息以及驱使用户下单的片段并保留下来。这一过程就是给各个场景进行秒级切分并打上各种标签的过程,也是赛道一考察的主要内容。

这些业务的顺利开展都离不开腾讯广告多年以来积累的多模态 AI 能力,包括文本、图像、语音、视频等多个领域。同时,这些能力的组合也为腾讯广告打造智能审核、智能创作、内容理解等广告业务平台奠定了基础。这些平台覆盖创意制作(投前)、广告推荐(投中)、创意复盘(投后)整个链路,支持文本、图片、视频、落地页等各种广告类型,已经在在游戏、电商、金融、教育、网服等多个行业的广告创作中得到应用。

微信图片_20211206104635.jpg


可以预见的是,随着 AI 落地的深入,未来将有越来越多的 AI 技术应用到广告产品当中。或许哪天吸引你看下去的一个广告就是 AI 生成的呢。

相关文章
|
2天前
|
机器学习/深度学习 人工智能 编解码
VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量
VideoVAE+ 是香港科技大学推出的先进跨模态视频变分自编码器,通过时空分离压缩机制和文本指导,实现了高效视频压缩与精准重建。
25 7
VideoVAE+:AI 生成视频高保真重建和跨模态重建工具,基于文本信息指导视频重建,提升视频细节质量
|
4天前
|
机器学习/深度学习 人工智能 算法
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法,能够显著提升视频的对比度、清晰度和细节真实性。
24 8
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
|
13天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
83 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
23天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
81 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
79 7
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
|
26天前
|
机器学习/深度学习 缓存 人工智能
【AI系统】QNNPack 算法
QNNPACK是Marat Dukhan开发的量化神经网络计算加速库,专为移动端优化,性能卓越。本文介绍QNNPACK的实现,包括间接卷积算法、内存重排和间接缓冲区等关键技术,有效解决了传统Im2Col+GEMM方法存在的空间消耗大、缓存效率低等问题,显著提升了量化神经网络的计算效率。
36 6
【AI系统】QNNPack 算法
|
26天前
|
存储 人工智能 缓存
【AI系统】Im2Col 算法
Caffe 作为早期的 AI 框架,采用 Im2Col 方法优化卷积计算。Im2Col 将卷积操作转换为矩阵乘法,通过将输入数据重排为连续内存中的矩阵,减少内存访问次数,提高计算效率。该方法首先将输入图像转换为矩阵,然后利用 GEMM 库加速计算,最后将结果转换回原格式。这种方式显著提升了卷积计算的速度,尤其适用于通道数较多的卷积层。
49 5
【AI系统】Im2Col 算法
|
29天前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
48 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
26天前
|
存储 机器学习/深度学习 人工智能
【AI系统】Winograd 算法
本文详细介绍Winograd优化算法,该算法通过增加加法操作来减少乘法操作,从而加速卷积计算。文章首先回顾Im2Col技术和空间组合优化,然后深入讲解Winograd算法原理及其在一维和二维卷积中的应用,最后讨论算法的局限性和实现步骤。Winograd算法在特定卷积参数下表现优异,但其应用范围受限。
33 2
【AI系统】Winograd 算法
|
17天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。

热门文章

最新文章