GAViD: A Large-Scale Multimodal Dataset for Context-Aware Group Affect Recognition from Videos

简介: 本研究构建了当前规模最大、标注最完备的**多模态上下文感知群体情感视频数据集GAViD**,并提出CAGNet模型实现视觉、音频、上下文信息的有效融合,在效价分类与离散情感识别任务上取得领先性能,填补了领域内数据与模型的双重缺口,为自然场景下群体情感计算研究提供了关键支撑。

作者信息

  1. Deepak Kumar:印度理工学院罗克分校计算机科学与工程系
  2. Abhishek Pratap Singh:印度理工学院罗克分校计算机科学与工程系

研究背景

群体情感识别(GAR)是情感计算的重要分支,旨在分析群体中个体的情感模式以揭示集体情感状态,在商业效率、市场营销、团队绩效评估、社会心理学、人机交互、公共安全等领域具有广泛应用价值。
当前自然无约束场景(in-the-wild)下的群体情感识别面临两大核心挑战:

  1. 数据层面:现有大规模标注数据集匮乏,多数数据集仅包含视觉模态、缺少音频与上下文信息,且普遍不同时具备效价标签、离散情感标签与上下文元数据,无法支撑多模态上下文感知建模。
  2. 模型层面:现有方法多依赖视觉特征,极少充分利用场景上下文信息,而大语言模型已证明上下文信息对视频理解的重要性,群体情感识别中上下文建模研究严重不足。
    此外,真实场景视频存在光照差、遮挡、运动模糊、视角多变等问题,进一步增加群体情感捕捉与标注难度。

研究目的

  1. 解决自然场景下群体情感识别缺乏大规模、多模态、带上下文标注的数据集这一核心缺口,构建同时包含视频、音频、上下文信息,且标注效价与离散情感的数据集。
  2. 提出能够有效融合视觉、音频、上下文特征的多模态上下文感知群体情感识别模型,为该领域提供基准方法。
  3. 支撑复杂社会系统中群体情感动态的量化建模与分析,推动群体情感识别在真实场景的应用落地。

本文核心贡献

  1. 构建大规模多模态群体情感数据集GAViD:包含5091个自然场景视频片段,同步提供视频、音频、多模态大模型生成并人工校验的上下文元数据,同时标注三元效价、五类离散情感、情感强度、交互类型与行为线索,是首个同时完备具备三类核心标注的群体情感数据集。
  2. 提出上下文感知群体情感识别网络CAGNet:通过跨模态注意力与门控融合机制,统一建模视觉、音频、上下文信息,可端到端处理视频且能稳健应对模态缺失场景。
  3. 提供完备实验基准:在GAViD数据集上系统对比多种融合策略与现有视频大模型,验证多模态上下文融合的有效性,为后续研究提供可复现的基线与评估方案。
  4. 规范伦理与开源体系:数据集采用CC BY 4.0协议开源,明确禁止监控、画像等非研究用途,配套完整代码与文档,保障研究可复现性。

研究方法

image

1. GAViD数据集构建流程

  1. 数据采集:从YouTube获取知识共享协议(CC BY)授权视频,筛选包含2人及以上群体互动的内容,共得到321个原始视频。
  2. 视频分割:使用FFmpeg将视频切分为平均5秒的片段,每个原始视频最多保留35个片段,初始得到5130个片段。
  3. 数据清洗:剔除无清晰群体结构、人脸不可见、低分辨率、无有效时序信息的片段,最终保留5091个高质量片段,统一为25fps、720p。
  4. 多维度标注:通过Labelbox平台由108名标注者完成标注,每个片段由3人标注,多数投票确定最终标签,意见分歧时引入第4名标注者仲裁;标注内容包括三元效价、五类离散情感、情感强度、交互类型、行为线索,同时校验VideoGPT生成的上下文元数据。
  5. 数据集划分:按原始视频无重叠原则分为训练集3503个、验证集542个、测试集1046个。

2. CAGNet模型设计

  1. 模态专用编码:使用DINOv2提取视觉特征、Wav2Vec 2.0提取音频特征、XLM-RoBERTa提取文本上下文特征,将所有特征映射到768维公共空间。
  2. 跨模态对齐:对视觉-音频、视觉-上下文、音频-上下文三对组合分别使用掩码多头交叉注意力块,实现模态间信息互补与特征对齐。
  3. 门控融合:采用挤压激励门控机制,动态加权不同模态特征,自适应聚焦关键模态信息。
  4. 分类输出:经层归一化、GELU激活、Dropout正则化后,通过两层MLP输出三元效价分类概率。
  5. 鲁棒性设计:训练时随机丢弃单一模态,测试时以零向量替代缺失模态输入,提升模型对模态缺失的适应性。

3. 实验设置

  • 硬件:NVIDIA RTX A5000 GPU
  • 优化器:AdamW,学习率1×10⁻⁴,权重衰减1×10⁻⁴
  • 训练:最多50轮,早停策略(耐心值5),批次大小16,Dropout率0.4
  • 评估指标:准确率(Acc.)、F1分数,对比融合基线模型与Video-GPT、LLaVA-NeXT等视频大模型

研究结果

  1. 数据集质量:三元效价标注科恩kappa系数0.72,离散情感系数0.65,标注一致性高、数据可靠;情感分布以中性、快乐为主,符合真实场景规律。
  2. 模型性能:CAGNet在三模态(V+A+C)输入下,测试集效价分类准确率达63.20%,F1分数0.614;使用训练+验证集联合训练后,性能提升至66.21%准确率、0.647 F1分数。
  3. 模态有效性:三模态融合效果显著优于双模态,视觉+音频是最优双模态组合,上下文信息能有效修正模糊场景下的情感预测错误。
  4. 对比结果:CAGNet大幅领先简单融合基线与Video-GPT、LLaVA-NeXT等通用视频大模型,证明专用多模态上下文融合结构的必要性。
  5. 离散情感识别:CAGNet测试集准确率61.33%,F1分数0.458,优于基线模型,具备实用价值。
  6. 模态缺失鲁棒性:随机缺失单一模态时,模型性能仅小幅下降,展现良好的容错能力。

总结与展望

本研究构建了当前规模最大、标注最完备的多模态上下文感知群体情感视频数据集GAViD,并提出CAGNet模型实现视觉、音频、上下文信息的有效融合,在效价分类与离散情感识别任务上取得领先性能,填补了领域内数据与模型的双重缺口,为自然场景下群体情感计算研究提供了关键支撑。

未来展望

  1. 扩展GAViD数据集规模,新增帧级别与个体级别情感标注。
  2. 深入研究更细粒度的时序动态建模,提升模型对群体情感变化的捕捉能力。
  3. 探索域适应方法,推动模型在实时部署场景的应用。
  4. 拓展迁移学习,将方法应用于其他相关情感计算任务。
  5. 持续完善数据集与模型,支持更精准的群体与个体情感联合分析。
相关文章
|
17天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34827 46
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
12天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
11382 36
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
7天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
2387 24
|
29天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45733 157
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
5天前
|
人工智能 弹性计算 安全
Hermes Agent是什么?怎么部署?超详细实操教程
Hermes Agent 是 Nous Research 于2026年2月开源的自进化AI智能体,支持跨会话持久记忆、自动提炼可复用技能、多平台接入与200+模型切换,真正实现“越用越懂你”。MIT协议,部署灵活,隐私可控。
1597 3
|
12天前
|
机器学习/深度学习 存储 人工智能
还在手写Skill?hermes-agent 让 Agent 自己进化能力
Hermes-agent 是 GitHub 23k+ Star 的开源项目,突破传统 Agent 依赖人工编写Aegnt Skill 的瓶颈,首创“自我进化”机制:通过失败→反思→自动生成技能→持续优化的闭环,让 Agent 在实践中自主构建、更新技能库,持续自我改进。
1785 6

热门文章

最新文章

下一篇
开通oss服务