2018年世界杯期间,阿里巴巴与央视CCTV5客户端联合打造基于多模态人工智能技术的智能集锦服务,每场足球比赛结束5分钟就能够智能生成全场比赛精彩集锦,经过人工审核后比赛结束20分钟内就能在CCTV5客户端发布,集锦的生成时间相比人工剪辑效率提升了10倍。经过世界杯64场比赛的实际应用证明,智能集锦生成内容基本能够达到直接发布的标准,能够明显节约人工工作量,提高内容发布时效性,让编辑可以更专注于其它更加精细化且包含情感和编辑思路的视频产品的制作。
从2018年2月底正式启动,阿里巴巴与央视紧密配合,在3个月时间里完成建模、研发、训练、测试和联调,在6月中旬世界杯正式应用,这是总台通过下属总公司与阿里巴巴签署技术合作协议后在人工智能方向成功落地的首个业务场景。在当前全球环境来看,通过人工智能解决某一复杂业务的痛点很难有现成可用的理想化成熟技术,而需要技术方与业务方之间相互配合,通过复杂的多模态人工智能算法支撑,提供充足的数据喂养,在业务场景中逐步成长。本次成功合作充分证明了笔者的这一观点。
一、双方明确可量化的业务目标
在合作伊始,双方针对本次应用明确了可量化的业务目标,包括时效性要求、集锦时长要求、集锦构成比赛片段优先级排序、片段完整性要求四个部分。
- 时效性要求:
在每场比赛结束5分钟内生成精彩集锦。
- 集锦时长要求:
可根据比赛精彩程度自行调节集锦时长,也能够人工干预指定时长。人工指定时长与实际生成集锦时长之间偏差不超过1分钟。
- 片段优先级排序:
针对足球比赛的实际场景,业务方提出构成集锦的优先级顺序由高到低依次为:进球片段、红黄牌片段、威胁射门片段、敏感犯规片段(推搡冲突)。
- 片段完整性要求:
视觉要求:
- 完整的传球配合和射门镜头,如有连续配合传球后射门,需从配合第一脚传球开始剪切。射门包含点球、直接任意球等场景。如是进球片段需包含庆祝进球的镜头。
- 引起冲突和红黄牌片段,需要完整记录冲突过程、关键犯规动作和裁判出牌镜头。
听觉要求:
在基于视觉完整性的前提下,不能在解说嘉宾一句话的中间作为切入点,切出点也需保证一句话的完整性。
二、研发针对性的多模态人工智能算法
多模态深度学习是目前业界针对复杂的视频问题的最有效解决方法,它可以把复杂且难以关联的多源数据、多类型特征进行融合并自动化的学习出内在关联和逻辑,阿里巴巴在LSVC2017的夺冠过程也充分证明了多模态深度学习的高效性和实用性。
本次央视世界杯AI集锦项目采用阿里巴巴达摩院最先进且高效的多模态技术,从根源上避免了单一识别技术自身的局限性的影响,为AI集锦服务带来了极高的可靠性。
下图是本届世界杯AI集锦算法的数据计算逻辑图。视频数据、音频数据作为初始数据信号源,输入进行多模态的深度网络模型学习。视频网络模型会产出涵盖赛事结构、比分、行为、特殊标记、镜头深度、场景位置、场景分类等视频信息特征和数据,音频网络模型会产出涵盖哨声、欢呼声、解说员文字信息、文本事件等音频信息特征和数据,再经过两方数据结合分析,就能够清晰定义出进球、射门、红黄牌等事件。最后基于先前定义的集锦片段优先级排序,计算出比赛的集锦内容。
根据实际业务需求,央视与阿里一起将赛事中的事件划分为两大类:主事件和副事件。主事件是集锦中必须包含的片段;副事件是作为备选片段,当集锦主事件时间长度不足时再根据算法优先级进行填充。阿里巴巴基于足球赛事特点,为世界杯开创了多项先进的AI集锦多模态算法,提升各种球场事件抓取的准确性。
在主事件分析阶段,阿里巴巴结合了音频、视频多维特征提取赛事全方位过程信息,首先精确计算得到主事件和人员行为的精确位置和区间,涵盖进球、红牌、黄牌、超威胁射门等;再进一步利用特征信息往前往后逐步扩展,推导出每个事件发生的精确起始时间点,例如进球的助攻行为、威胁传球、犯规前的推进行为等;最后辅以新研发的回放映射网络算法计算得到事件对应的回放、庆祝、裁判动作、抱怨、冲突等等衍生事件和行为的精确时间点。处理逻辑如下图所示:
第二阶段为副事件分析阶段,逻辑如下图所示。该阶段主要用于发现赛事中相对精彩的副事件信息,例如恶意推搡、受伤下场、精彩过人等事件的精确时间和区间。当主事件时间长度不足后触发事件补偿算法,把相关片段插入主事件集锦中,增加集锦的整体可观赏性。
在整个多模态算法网络中,依靠阿里巴巴达摩院的技术积累,设计并实现了多种赛事AI集锦专用的深度学习网络,在本届世界杯AI剪辑项目中充分证明了这些算法的高效性和实用性:
- 利用自设计深度信息分析网络SASA-NET,精准分析赛事视频中的镜头变化、信息变化;
- 利用轻量级OCR算法识别赛事中的比分信息、时间信息等其他文件信息,精确把握赛事中的信息变化和更新;
- 利用自设计深度时域特征网络SATA-NET,精准检测和识别赛事中的犯规、射门、出牌等超敏感信息;
- 利用视频多维特征信息及特征,结合自设计大规模视频特征多模态融合网络VM-NET分析攻防节奏,结合事件类型分析得到事件发起点信息;
- 利用音视频多维度特征,结合自设计多模态特征网络MVA-NET精确剪辑解说信息,保证解说信息的完整性和流畅性;
- 利用音视频多维度特征,结合自设计多模态特征排序网MVA-RankNet精确剪辑解说信息,针对事件的重要等级进行多维度排序和评分,并根据需要的时长定制化剪辑出集锦视频。
三、提供充足的数据喂养
在开发训练过程中,央视先后提供了2016年欧洲杯、2014年世界杯共约100场比赛数据,阿里基于这些数据进行标注和训练,让算法自我学习和进化,进一步提升算法准确率。
- 视频算法的数据喂养
在视频算法方面,基于央视提供的赛事近百场数据,结合自收集的历史赛事数据超300场,约2.9万分钟比赛视频数据,实现对球员、球场、比赛等不同维度的内容理解,达到了能够真正看懂一场足球赛的认知水平。
识别的事件类型不但广泛,而且均具有较高的准确率,实测平均准确率达到95%以上,事件涵盖进球、红黄牌、射门、犯规、过人、换人、任意球、角球、点球等等。更为难得的是,针对时间区间的识别误差均保持在3秒以内。
- 音频算法的数据喂养
在音频算法方面,基于历史数据针对性训练内容包括:
- 整理标注了所有比赛中解说员的常用词汇
- 整理标注了所有比赛中球场的音频事件,包括裁判哨声、球场进球后的欢呼声、射偏后的叹息声、球员犯规的嘘声等
另外,语音算法团队从互联网抓取2万篇足球&世界杯相关文稿进行训练,进一步丰富了足球场景下的词汇量;并收集和训练了2018世界杯全部参赛球队和球员名字及场上位置。
- 数据喂养的效果
上述方法的喂养和训练后,双方利用2014年世界杯历史数据进行实际检测,智能集锦服务的整体准确率得到了明显提升:片段完整性的准确率从80%上升到95%;集锦完整性的准确率从85%上升到接近100%,多次测试没有出现关键片段遗漏情况。
四、世界杯过程中的逐步成长
6月14日晚世界杯开赛时智能集锦服务正式启用,在使用过程中双方根据本次世界杯实际直播情况进行了持续的优化和修改,持续对智能集锦应用场景进行优化,例如:
- 因为世界杯比赛技术的升级,采用了视频裁判技术而增加了更多比赛的中断,例如韩国与德国比赛中进球射门与庆祝动作之间存在较长时间中断;
- 比赛中出现某退役球星在直播镜头中竖中指等突发场景,通过AI不雅动作分析截取掉相关镜头;
通过64场实战比赛的不断积累,让多模态智能集锦算法的精准度和可用性不断得到提升,剪辑效果与人工剪辑基本无差别,但效率提升了10倍。
五、总结
央视世界杯智能集锦是在电视台体育业务首次通过复杂多模态AI算法解决实际业务痛点的成功应用。一是依靠阿里巴巴集团优秀而丰富的AI人才,能够在短时间内为世界杯集锦业务针对性研发各种类型AI算法并成功组合;二是依靠央视明确可量化的业务需求和充足的数据提供帮助算法准确率得到大幅度提升;三是双方密切配合,通过央视新媒体集成发布平台集成阿里的智能引擎,实现了全流程的自动化运转。后续双方在足球比赛集锦业务会继续合作升级能力,继续在其它体育项目中进行探索。