让大模型更懂你的情绪——通义实验室与中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo

简介: BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。

GPT-4o的亮相不仅揭示了端到端多模态模型在减少响应时间上的巨大潜力,更向我们展现了其在理解与生成富有深度情感的语音内容方面的卓越能力。尽管此技术的具体细节尚未向研究界全面公开,但其背后可能投入的海量数据和巨量计算资源都是难以轻易获得的宝贵资源。但是,通义实验室和中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo给我们提供了一个可能的实现方案。

在这项工作中,作者提出了一种创新性的内容情感对齐方法——BLSP-EmoBootstrapped Language-Speech Pretraining with Emotion support),该方法旨在赋予大语言模型理解语音输入中的语义与情感,并生成共情回复的能力。BLSP-Emo通过两阶段的对齐训练利用现有的语音识别(ASR)和语音情感识别(SER)数据,将语音中的语言信息和副语言情感信号有效对齐至大语言模型的语义理解空间中。

作者的实验结果表明,BLSP-Emo不仅能够执行多模态语音语言指令,还能对用户语音请求中蕴含的情感进行深刻的理解与共情响应,为构建更加人性化、更具有共情力的 AI 交互体验奠定了基础。

  • 论文地址:

https://arxiv.org/abs/2406.03872

  • Demo地址:

https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary

BLSP-Emo能做什么?

如上图所示,BLSP-Emo作为一款具有共情能力的语音对话模型,它能够深刻理解语音中的语义以及情感线索。即便面对语义内容相同的两段语音,BLSP-Emo也能够洞察其中不同的情绪色彩,并据此做出具有共情的回复,极大地丰富了人机互动的体验。作者在项目页面通过一系列多样化的Demo,展示BLSP-Emo在指令遵循和共情回复方面的卓越能力:https://cwang621.github.io/blsp-emo.github.io

你也可以通过以下链接在线试用BLSP-Emo:https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary

那么,BLSP-Emo是怎么训练的呢?

BLSP-Emo的模型架构如上图所示,通过一个模态适配器将语音编码器Whisper和大语言模型Qwen-7B-Chat连接起来。为了实现更好的语义和情感建模,BLSP-Emo经历了语义对齐和情感对齐两个阶段的训练过程。

在语义对齐阶段,BLSP-Emo依托于ASR数据,使大语言模型能够对语义内容一致的语音和文本,展现出一致的生成行为。这一阶段分为两个步骤:首先,通过续写指令引导大语言模型对语音的转录文本进行续写;接着,以文本续写结果作为监督信号,确保当模型输入相应语音片段时,能产生一致的续写结果。

在情感对齐阶段,BLSP-Emo进一步拓展了行为对齐的思想,利用SER数据训练大语言模型,在给定文本信息和情感标签或给定对应的语音输入下,展示一致的生成行为。这一阶段同样分为两步:首先是引导大语言模型根据语音的转录文本和情感标签生成文本续写;第二步利用文本续写作为监督信号,以实现在输入相应的语音片段时生成相同的续写。

更多详情可查看完整论文:

https://arxiv.org/abs/2406.03872

展望

BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。

点击链接👇查看原文

https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary?from=alizishequ__text

目录
打赏
0
3
4
0
156
分享
相关文章
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
204 8
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
阿里通义开源新一代混合推理模型 Qwen3:创新双模式推理,支持"思考模式"和"非思考模式"
Qwen3是阿里巴巴推出的新一代大型语言模型,支持119种语言和两种推理模式,采用四阶段训练流程和Apache 2.0协议开源,提供从0.6B到235B的多种模型配置。
75 17
阿里通义开源新一代混合推理模型 Qwen3:创新双模式推理,支持"思考模式"和"非思考模式"
GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化
GitHub MCP Server是基于Model Context Protocol的服务器工具,提供与GitHub API的无缝集成,支持自动化处理问题、Pull Request和仓库管理等功能。
360 2
GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化
通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!
通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!
85 5
阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%
R1-Omni 是阿里通义开源的全模态大语言模型,专注于情感识别任务,结合视觉和音频信息,提供可解释的推理过程,显著提升情感识别的准确性和泛化能力。
266 10
阿里通义开源全模态大语言模型 R1-Omni:情感分析成绩新标杆!推理过程全程透明,准确率飙升200%
全新开源通义千问Qwen3上架阿里云百炼
Qwen3是Qwen系列大型语言模型的最新成员,作为混合推理模型,其旗舰版本Qwen3-235B-A22B在代码、数学和通用能力测试中表现出色,与顶级模型DeepSeek-R1、o1、o3-mini等相比具有竞争力。小型MoE模型Qwen3-30B-A3B激活参数仅为QwQ-32B的10%,性能更优,甚至小规模模型Qwen3-4B也能匹敌Qwen2.5-72B-Instruct。Qwen3支持思考与非思考两种模式,可根据任务需求灵活调整推理深度,并支持119种语言,Qwen3在推理、工具调用及多语言处理等方面显著提升,目前已开源并在阿里云百炼平台上线,提供便捷体验。
用通义灵码写一个大学社团“自动化运营外挂” | 《趣玩》第3期
通义灵码通过自动化重复性任务、提供技术开发支持、处理大量数据分析、辅助内容创作、确保安全合规管理以及促进团队协作和培训,显著提升了社团运营的效率和成员的技术能力。从自动化脚本编写到智能问答辅助,再到数据可视化和代码风格统一,通义灵码为社团活动的全流程提供了全面的技术支持。
机器学习+自动化运维:让服务器自己修Bug,运维变轻松!
机器学习+自动化运维:让服务器自己修Bug,运维变轻松!
109 14
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
137 4

热门文章

最新文章