阿里通义开源全模态大语言模型 R1-Omni：情感分析成绩新标杆！推理过程全程透明，准确率飙升200%

2025-03-12 1830

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： R1-Omni 是阿里通义开源的全模态大语言模型，专注于情感识别任务，结合视觉和音频信息，提供可解释的推理过程，显著提升情感识别的准确性和泛化能力。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎙️ “客服情绪拿不准？阿里黑科技让AI看表情听语气，推理过程堪比人类心理专家！”
大家好，我是蚝油菜花。你是否遇到过这些扎心场景——

👉 看监控视频分析顾客满意度，盯到眼酸还漏关键微表情
👉 听电话录音判断用户情绪，复杂语境下总误判投诉等级
👉 做影视剧情感分析，人工标注成本高且主观性强...

今天揭秘的 阿里通义R1-Omni ，正在重新定义情感计算！这个基于强化学习的多模态大模型，能同时「看」画面「听」声音：

✅ 穿透式情感分析：结合视觉微表情+语音语调，识别准确率超传统模型200%
✅ 白盒级推理解释：自动生成比心理医生诊断更透明决策逻辑，比心理医生诊断更透明
✅ 工业级泛化能力：在客服/影视/心理测评等场景零样本学习，3分钟极速部署

已有企业用它实时预警高危客诉，影视公司靠它批量分析观众情绪——你的业务准备好接入情感计算2.0时代了吗？

🚀 快速阅读

R1-Omni 是阿里通义开源的全模态大语言模型，专注于情感识别任务。

核心功能：结合视觉和音频信息，提供可解释的推理过程，显著提升情感识别的准确性和泛化能力。
技术原理：采用 RLVR 训练范式和 GRPO 方法，简化奖励机制，增强模型区分高质量和低质量输出的能力。

R1-Omni 是什么

R1-Omni

R1-Omni 是阿里通义推出的基于强化学习（RLVR）的全模态大语言模型，专注于情感识别任务。通过结合视觉和音频信息，能清晰地解释情感识别的推理过程，展现出强大的情感理解能力。

在多个情感识别数据集上，R1-Omni 的性能显著优于监督微调（SFT）模型，在分布外场景中表现出色，具有很强的泛化能力。

R1-Omni 的主要功能

多模态情感分析：R1-Omni 能同时处理视觉和音频信息，对输入的视频或音频内容进行情感识别，准确判断其中所表达的情感。
可解释的推理过程：模型给出情感识别结果，能生成详细的推理过程。推理过程封装在特定的标签内，解释模型是如何整合视觉和音频线索得出预测的，增强了模型的可解释性。
基于 RLVR 的训练：R1-Omni 采用 RLVR 训练范式，基于可验证奖励函数直接评估输出，无需依赖单独的奖励模型。简化了奖励机制，同时确保了与任务内在正确性标准的一致性。
GRPO 方法应用：结合 GRPO（生成相对策略优化）方法，直接比较生成的响应组，避免使用额外的评论家模型，增强了模型区分高质量和低质量输出的能力。
推理能力增强：相比其他基线模型，R1-Omni 提供了更连贯、准确和可解释的推理过程。
理解能力提高：在多个情感识别数据集上，R1-Omni 的情感识别准确率显著优于其他模型。
泛化能力更强：在分布外（OOD）数据集上，R1-Omni 表现出色，能够更好地适应未见场景。

R1-Omni 的技术原理

RLVR 训练范式：RLVR 是新的训练范式，核心思想是基于验证函数直接评估模型输出，无需依赖传统的人类反馈强化学习（RLHF）中的单独奖励模型。给定输入问题 q，策略模型 πθ 生成响应 o，然后使用可验证奖励函数 R(q,o) 对其进行评估，优化目标是最大化验证奖励减去基于 KL 散度的正则化项。简化了奖励机制，同时确保了与任务内在正确性标准的一致性。
GRPO 方法：GRPO（分组相对策略优化）是改进的强化学习方法，与传统的 PPO（近端策略优化）不同。GRPO 避免了使用额外的评论家模型，直接比较生成的响应组。具体过程是：针对一个问题 q，采样多组输出 {o1,o2,…,oG}，对每个输出计算奖励分 {r1,r2,…,rG}，然后对这些奖励分进行归一化处理，形成相对奖励。能更直接地反映同一问题下不同输出的优劣关系，增强模型区分高质量和低质量输出的能力。
冷启动策略：R1-Omni 的模型构建采用了受 DeepSeek-R1 启发的冷启动策略。首先，在包含 232 个可解释多模态情感推理数据集（EMER）样本和 348 个手动标注的 HumanOmni 数据集样本的组合数据集上，对 HumanOmni-0.5B 进行微调。使模型具备初步的推理能力，了解视觉和音频线索是如何对情感识别产生作用的。之后，通过 RLVR 训练进一步优化模型。
奖励函数设计：在 RLVR 训练过程中，奖励函数由两部分组成：准确率奖励和格式奖励。准确率奖励用于评估预测情感与真实情感的匹配度，格式奖励确保模型输出符合指定的 HTML 标签格式。保证了情感识别的准确性和输出的可解释性。
模型输出格式：R1-Omni 的输出预期包含两部分：推理过程和最终情感标签。推理过程封装在标签内，解释模型如何整合视觉和音频线索得出预测；最终情感标签封装在标签内，表示预测的情感。提供了情感识别结果，给出了详细的推理过程，增强了模型的可解释性。

如何运行 R1-Omni

1. 环境设置

我们的代码基于 R1-V 框架构建。要设置环境，请按照 R1-V 仓库 中的安装说明进行操作。

R1-V 仓库：https://github.com/Deep-Agent/R1-V/

2. 推理

我们的推理代码基于 HumanOmni 的实现。为确保模型顺利运行推理，请按照以下步骤操作：

2.1 下载所需模型

siglip-224：https://huggingface.co/google/siglip-base-patch16-224
whisper-large-v3：https://huggingface.co/openai/whisper-large-v3

2.2 更新配置文件

在下载 R1-Omni 模型的目录中，找到 config.json 文件。
更新第 23 行和第 31 行的路径，指向保存模型的本地文件夹。

示例：更新 config.json

如果你将模型保存到以下本地路径：

/path/to/local/models/siglip-base-patch16-224
/path/to/local/models/whisper-large-v3

更新 config.json 中的相关行如下：

 "mm_audio_tower": "/path/to/local/models/whisper-large-v3",
 "mm_vision_tower": "/path/to/local/models/siglip-base-patch16-224"

我们提供了 inference.py 用于单视频推理。

python inference.py --modal video_audio \
  --model_path ./R1-Omni-0.5B \
  --video_path video.mp4 \
  --instruct "As an emotional recognition expert; throughout the video, which emotion conveyed by the characters is the most obvious to you?  Output the thinking process in <think> </think> and final emotion in <answer> </answer> tags."

资源

GitHub 仓库：https://github.com/HumanMLLM/R1-Omni
HuggingFace 模型库：https://huggingface.co/StarJiaxing/R1-Omni-0.5B