随着智能手机和社交媒体的普及,竖屏视频已成为人们日常生活中不可或缺的一部分。这种视频格式的独特性,不仅改变了视频的长宽比,还对视频内容的类型和空间偏见产生了深远影响。竖屏视频通常更加聚焦于主体(如人物),背景信息较少,且包含大量的口头交流,这对于视频识别技术提出了新的挑战。为了应对这些挑战,研究者们开发了首个专门针对竖屏视频识别的数据集PortraitMode-400,旨在推动相关研究的发展。
PortraitMode-400数据集的构建采用了数据驱动的方法,包含400个细粒度的类别,涵盖了体育、美食、音乐、手工艺和日常活动等多个领域。该数据集从抖音应用中收集了76k个视频,并由专业训练的人工注释员进行标注,以确保注释的准确性和一致性。此外,研究者们还对竖屏和横屏视频格式对识别准确性的影响进行了全面分析,并设计了广泛的实验来探索竖屏视频识别的关键方面,包括数据增强的选择、评估程序、时间信息的重要性以及音频模态的作用。
实验结果表明,竖屏视频识别在利用时间信息和音频模态方面表现出显著的优势。特别是,通过整合时间信息,可以显著提高竖屏视频的识别准确性。此外,即使是简单的音频整合也可以提高识别准确率,这表明在竖屏视频分析中,多模态视频分析具有巨大的潜力。
然而,竖屏视频识别也面临着一些挑战。首先,由于竖屏视频的内容通常更加聚焦于主体,背景信息较少,这可能导致模型在识别时缺乏足够的上下文信息。其次,竖屏视频的空间偏见可能会影响模型的泛化能力,尤其是在处理多样化场景时。此外,竖屏视频的注释成本较高,需要专业的人工注释员进行高质量的标注,这可能会限制大规模数据集的构建。
尽管存在这些挑战,PortraitMode-400数据集的推出无疑为竖屏视频识别领域带来了新的研究机遇。它的细粒度分类和严格的质量保证为研究者提供了一个宝贵的资源,可以用于开发新的模型架构和多模态方法。此外,该数据集的发布也鼓励了对竖屏视频独特属性的进一步探索,如空间先验和时间动态的深入理解。