让大模型更懂你的情绪——通义实验室与中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo

简介: BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。

GPT-4o的亮相不仅揭示了端到端多模态模型在减少响应时间上的巨大潜力,更向我们展现了其在理解与生成富有深度情感的语音内容方面的卓越能力。尽管此技术的具体细节尚未向研究界全面公开,但其背后可能投入的海量数据和巨量计算资源都是难以轻易获得的宝贵资源。但是,通义实验室和中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo给我们提供了一个可能的实现方案。

在这项工作中,作者提出了一种创新性的内容情感对齐方法——BLSP-EmoBootstrapped Language-Speech Pretraining with Emotion support),该方法旨在赋予大语言模型理解语音输入中的语义与情感,并生成共情回复的能力。BLSP-Emo通过两阶段的对齐训练利用现有的语音识别(ASR)和语音情感识别(SER)数据,将语音中的语言信息和副语言情感信号有效对齐至大语言模型的语义理解空间中。

作者的实验结果表明,BLSP-Emo不仅能够执行多模态语音语言指令,还能对用户语音请求中蕴含的情感进行深刻的理解与共情响应,为构建更加人性化、更具有共情力的 AI 交互体验奠定了基础。

  • 论文地址:

https://arxiv.org/abs/2406.03872

  • Demo地址:

https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary

BLSP-Emo能做什么?

如上图所示,BLSP-Emo作为一款具有共情能力的语音对话模型,它能够深刻理解语音中的语义以及情感线索。即便面对语义内容相同的两段语音,BLSP-Emo也能够洞察其中不同的情绪色彩,并据此做出具有共情的回复,极大地丰富了人机互动的体验。作者在项目页面通过一系列多样化的Demo,展示BLSP-Emo在指令遵循和共情回复方面的卓越能力:https://cwang621.github.io/blsp-emo.github.io

你也可以通过以下链接在线试用BLSP-Emo:https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary

那么,BLSP-Emo是怎么训练的呢?

BLSP-Emo的模型架构如上图所示,通过一个模态适配器将语音编码器Whisper和大语言模型Qwen-7B-Chat连接起来。为了实现更好的语义和情感建模,BLSP-Emo经历了语义对齐和情感对齐两个阶段的训练过程。

在语义对齐阶段,BLSP-Emo依托于ASR数据,使大语言模型能够对语义内容一致的语音和文本,展现出一致的生成行为。这一阶段分为两个步骤:首先,通过续写指令引导大语言模型对语音的转录文本进行续写;接着,以文本续写结果作为监督信号,确保当模型输入相应语音片段时,能产生一致的续写结果。

在情感对齐阶段,BLSP-Emo进一步拓展了行为对齐的思想,利用SER数据训练大语言模型,在给定文本信息和情感标签或给定对应的语音输入下,展示一致的生成行为。这一阶段同样分为两步:首先是引导大语言模型根据语音的转录文本和情感标签生成文本续写;第二步利用文本续写作为监督信号,以实现在输入相应的语音片段时生成相同的续写。

更多详情可查看完整论文:

https://arxiv.org/abs/2406.03872

展望

BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。

点击链接👇查看原文

https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary?from=alizishequ__text

相关文章
|
6天前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
93 17
|
20天前
|
弹性计算 机器人 应用服务中间件
一键部署开源Qwen3并集成到钉钉、企业微信
Qwen3系列模型现已正式发布并开源,包含8款“混合推理模型”,其中涵盖两款MoE模型(Qwen3-235B-A22B与Qwen3-30B-A3B)及六个Dense模型。阿里云计算巢已支持Qwen3-235B-A22B和Qwen3-32B的私有化部署,用户可通过计算巢轻松完成部署,并借助AppFlow集成至钉钉机器人或企业微信。文档详细介绍了从模型部署、创建应用到配置机器人的全流程,帮助用户快速实现智能助手的接入与使用。
一键部署开源Qwen3并集成到钉钉、企业微信
|
25天前
|
机器学习/深度学习 人工智能 算法
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
Skywork-R1V 2.0是昆仑万维最新开源的多模态推理模型,通过混合强化学习和多模态奖励模型实现复杂推理任务,在理科题目解答和科研分析中展现出色性能。
149 11
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
|
4天前
|
人工智能 监控 API
狂揽22.6k星!这个开源工具让你一键调用100+大模型,开发效率直接起飞!
LiteLLM是由BerriAI团队开发的开源项目,通过标准化OpenAI格式API接口,支持调用100+主流大语言模型(如OpenAI、Azure、Anthropic等)。其核心功能包括统一调用方式、企业级智能路由、异步流式响应及环境变量管理。项目适用于企业AI中台搭建、多模型对比测试、教育科研实验等场景。技术架构涵盖接口层、路由层、管理层与监控层,提供高效稳定的服务。相比LangChain、LlamaIndex等项目,LiteLLM在多平台混合开发方面优势显著。项目地址:https://github.com/BerriAI/litellm。
|
5天前
|
人工智能 负载均衡 数据可视化
10分钟上手全球开源模型冠军 Qwen3
阿里通义千问Qwen3在最新全球AI基准测试中智能水平位列全球前五,开源第一,且成本优势显著,推理成本仅为DeepSeek-R1的1/3、Claude 3.7的1/20。Qwen3支持119种语言,具备强大的代码和数学能力,同时提供思考与非思考两种模式无缝切换,适合复杂与简单任务。通过阿里云百炼平台,用户可在10分钟内快速搭建Qwen3模型服务,结合Cherry Studio客户端实现便捷交互。本文详细介绍了Qwen3的部署、体验及工具调用能力,帮助用户轻松上手。
|
26天前
|
人工智能 自然语言处理 知识图谱
Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库
Yuxi-Know是一个结合大模型RAG知识库与知识图谱技术的智能问答平台,支持多格式文档处理和复杂知识关系查询,具备多模型适配和智能体拓展能力。
151 0
Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库
|
19天前
|
机器学习/深度学习 人工智能 算法
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
小米开源的MiMo推理大模型通过联动预训练与强化学习算法,在7B参数规模下实现数学推理与代码生成能力的突破性提升,技术报告显示其性能超越部分32B级模型。
368 74
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
通义千问Qwen3,开源!
Qwen3正式发布并全部开源啦!
536 49
|
19天前
|
机器学习/深度学习 人工智能 API
阿里通义开源新一代混合推理模型 Qwen3:创新双模式推理,支持"思考模式"和"非思考模式"
Qwen3是阿里巴巴推出的新一代大型语言模型,支持119种语言和两种推理模式,采用四阶段训练流程和Apache 2.0协议开源,提供从0.6B到235B的多种模型配置。
245 19
阿里通义开源新一代混合推理模型 Qwen3:创新双模式推理,支持"思考模式"和"非思考模式"
|
19天前
|
人工智能 语音技术 iOS开发
Kimi-Audio:月之暗面开源音频大模型,1300万小时训练重塑语音交互
Kimi-Audio是月之暗面推出的开源音频基础模型,基于1300万小时多样化音频数据训练,采用混合输入架构和流式解码技术,支持语音识别、情感分析等十余种音频处理任务。
228 14
Kimi-Audio:月之暗面开源音频大模型,1300万小时训练重塑语音交互