GAViD: A Large-Scale Multimodal Dataset for Context-Aware Group Affect Recognition from Videos-阿里云开发者社区

GAViD: A Large-Scale Multimodal Dataset for Context-Aware Group Affect Recognition from Videos

2026-04-20 26

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本研究构建了当前规模最大、标注最完备的**多模态上下文感知群体情感视频数据集GAViD**，并提出CAGNet模型实现视觉、音频、上下文信息的有效融合，在效价分类与离散情感识别任务上取得领先性能，填补了领域内数据与模型的双重缺口，为自然场景下群体情感计算研究提供了关键支撑。

作者信息

群体情感识别（GAR）是情感计算的重要分支，旨在分析群体中个体的情感模式以揭示集体情感状态，在商业效率、市场营销、团队绩效评估、社会心理学、人机交互、公共安全等领域具有广泛应用价值。
当前自然无约束场景（in-the-wild）下的群体情感识别面临两大核心挑战：

数据层面：现有大规模标注数据集匮乏，多数数据集仅包含视觉模态、缺少音频与上下文信息，且普遍不同时具备效价标签、离散情感标签与上下文元数据，无法支撑多模态上下文感知建模。
模型层面：现有方法多依赖视觉特征，极少充分利用场景上下文信息，而大语言模型已证明上下文信息对视频理解的重要性，群体情感识别中上下文建模研究严重不足。
此外，真实场景视频存在光照差、遮挡、运动模糊、视角多变等问题，进一步增加群体情感捕捉与标注难度。

构建大规模多模态群体情感数据集GAViD：包含5091个自然场景视频片段，同步提供视频、音频、多模态大模型生成并人工校验的上下文元数据，同时标注三元效价、五类离散情感、情感强度、交互类型与行为线索，是首个同时完备具备三类核心标注的群体情感数据集。
提出上下文感知群体情感识别网络CAGNet：通过跨模态注意力与门控融合机制，统一建模视觉、音频、上下文信息，可端到端处理视频且能稳健应对模态缺失场景。
提供完备实验基准：在GAViD数据集上系统对比多种融合策略与现有视频大模型，验证多模态上下文融合的有效性，为后续研究提供可复现的基线与评估方案。
规范伦理与开源体系：数据集采用CC BY 4.0协议开源，明确禁止监控、画像等非研究用途，配套完整代码与文档，保障研究可复现性。

数据采集：从YouTube获取知识共享协议（CC BY）授权视频，筛选包含2人及以上群体互动的内容，共得到321个原始视频。
视频分割：使用FFmpeg将视频切分为平均5秒的片段，每个原始视频最多保留35个片段，初始得到5130个片段。
数据清洗：剔除无清晰群体结构、人脸不可见、低分辨率、无有效时序信息的片段，最终保留5091个高质量片段，统一为25fps、720p。
多维度标注：通过Labelbox平台由108名标注者完成标注，每个片段由3人标注，多数投票确定最终标签，意见分歧时引入第4名标注者仲裁；标注内容包括三元效价、五类离散情感、情感强度、交互类型、行为线索，同时校验VideoGPT生成的上下文元数据。
数据集划分：按原始视频无重叠原则分为训练集3503个、验证集542个、测试集1046个。

模态专用编码：使用DINOv2提取视觉特征、Wav2Vec 2.0提取音频特征、XLM-RoBERTa提取文本上下文特征，将所有特征映射到768维公共空间。
跨模态对齐：对视觉-音频、视觉-上下文、音频-上下文三对组合分别使用掩码多头交叉注意力块，实现模态间信息互补与特征对齐。
门控融合：采用挤压激励门控机制，动态加权不同模态特征，自适应聚焦关键模态信息。
分类输出：经层归一化、GELU激活、Dropout正则化后，通过两层MLP输出三元效价分类概率。
鲁棒性设计：训练时随机丢弃单一模态，测试时以零向量替代缺失模态输入，提升模型对模态缺失的适应性。

数据集质量：三元效价标注科恩kappa系数0.72，离散情感系数0.65，标注一致性高、数据可靠；情感分布以中性、快乐为主，符合真实场景规律。
模型性能：CAGNet在三模态（V+A+C）输入下，测试集效价分类准确率达63.20%，F1分数0.614；使用训练+验证集联合训练后，性能提升至66.21%准确率、0.647 F1分数。
模态有效性：三模态融合效果显著优于双模态，视觉+音频是最优双模态组合，上下文信息能有效修正模糊场景下的情感预测错误。
对比结果：CAGNet大幅领先简单融合基线与Video-GPT、LLaVA-NeXT等通用视频大模型，证明专用多模态上下文融合结构的必要性。
离散情感识别：CAGNet测试集准确率61.33%，F1分数0.458，优于基线模型，具备实用价值。
模态缺失鲁棒性：随机缺失单一模态时，模型性能仅小幅下降，展现良好的容错能力。

本研究构建了当前规模最大、标注最完备的多模态上下文感知群体情感视频数据集GAViD，并提出CAGNet模型实现视觉、音频、上下文信息的有效融合，在效价分类与离散情感识别任务上取得领先性能，填补了领域内数据与模型的双重缺口，为自然场景下群体情感计算研究提供了关键支撑。