让大模型更懂你的情绪——通义实验室与中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo

简介: BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。

GPT-4o的亮相不仅揭示了端到端多模态模型在减少响应时间上的巨大潜力,更向我们展现了其在理解与生成富有深度情感的语音内容方面的卓越能力。尽管此技术的具体细节尚未向研究界全面公开,但其背后可能投入的海量数据和巨量计算资源都是难以轻易获得的宝贵资源。但是,通义实验室和中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo给我们提供了一个可能的实现方案。

在这项工作中,作者提出了一种创新性的内容情感对齐方法——BLSP-EmoBootstrapped Language-Speech Pretraining with Emotion support),该方法旨在赋予大语言模型理解语音输入中的语义与情感,并生成共情回复的能力。BLSP-Emo通过两阶段的对齐训练利用现有的语音识别(ASR)和语音情感识别(SER)数据,将语音中的语言信息和副语言情感信号有效对齐至大语言模型的语义理解空间中。

作者的实验结果表明,BLSP-Emo不仅能够执行多模态语音语言指令,还能对用户语音请求中蕴含的情感进行深刻的理解与共情响应,为构建更加人性化、更具有共情力的 AI 交互体验奠定了基础。

  • 论文地址:

https://arxiv.org/abs/2406.03872

  • Demo地址:

https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary

BLSP-Emo能做什么?

如上图所示,BLSP-Emo作为一款具有共情能力的语音对话模型,它能够深刻理解语音中的语义以及情感线索。即便面对语义内容相同的两段语音,BLSP-Emo也能够洞察其中不同的情绪色彩,并据此做出具有共情的回复,极大地丰富了人机互动的体验。作者在项目页面通过一系列多样化的Demo,展示BLSP-Emo在指令遵循和共情回复方面的卓越能力:https://cwang621.github.io/blsp-emo.github.io

你也可以通过以下链接在线试用BLSP-Emo:https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary

那么,BLSP-Emo是怎么训练的呢?

BLSP-Emo的模型架构如上图所示,通过一个模态适配器将语音编码器Whisper和大语言模型Qwen-7B-Chat连接起来。为了实现更好的语义和情感建模,BLSP-Emo经历了语义对齐和情感对齐两个阶段的训练过程。

在语义对齐阶段,BLSP-Emo依托于ASR数据,使大语言模型能够对语义内容一致的语音和文本,展现出一致的生成行为。这一阶段分为两个步骤:首先,通过续写指令引导大语言模型对语音的转录文本进行续写;接着,以文本续写结果作为监督信号,确保当模型输入相应语音片段时,能产生一致的续写结果。

在情感对齐阶段,BLSP-Emo进一步拓展了行为对齐的思想,利用SER数据训练大语言模型,在给定文本信息和情感标签或给定对应的语音输入下,展示一致的生成行为。这一阶段同样分为两步:首先是引导大语言模型根据语音的转录文本和情感标签生成文本续写;第二步利用文本续写作为监督信号,以实现在输入相应的语音片段时生成相同的续写。

更多详情可查看完整论文:

https://arxiv.org/abs/2406.03872

展望

BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。

点击链接👇查看原文

https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary?from=alizishequ__text

相关文章
|
1月前
|
自然语言处理 API C++
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller
|
13天前
|
机器学习/深度学习 人工智能 达摩院
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。
98 3
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
|
21天前
|
人工智能 JSON 数据管理
ShowUI:新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型
ShowUI是由新加坡国立大学Show Lab和微软联合推出的视觉-语言-行动模型,旨在提升图形用户界面(GUI)助手的效率。该模型通过UI引导的视觉令牌选择和交错视觉-语言-行动流,有效减少计算成本并提高训练效率。ShowUI在小规模高质量数据集上表现出色,展现出在GUI自动化领域的潜力。
56 4
ShowUI:新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型
|
10天前
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
|
23天前
|
机器学习/深度学习 人工智能 安全
通义千问开源的QwQ模型,一个会思考的AI,百炼邀您第一时间体验
Qwen团队推出新成员QwQ-32B-Preview,专注于增强AI推理能力。通过深入探索和试验,该模型在数学和编程领域展现了卓越的理解力,但仍在学习和完善中。目前,QwQ-32B-Preview已上线阿里云百炼平台,提供免费体验。
|
12天前
|
缓存 API 开发工具
Qwen-coder方向-如果从0开始应用通义千问开源大模型
从0开始接触,带您全面了解Qwen2.5语言模型家族,包括其核心功能、微调方法以及具体应用场景。我们将通过一系列精心准备的应用demo和使用指南,帮助您掌握如何充分利用Qwen2.5的强大能力
176 8
|
25天前
|
人工智能 开发者
再次获奖!世界互联网大会把荣誉给了通义大模型
再次获奖!世界互联网大会把荣誉给了通义大模型
40 11
|
1月前
|
机器学习/深度学习 数据采集 监控
如何使用机器学习模型来自动化评估数据质量?
如何使用机器学习模型来自动化评估数据质量?
|
21天前
|
机器学习/深度学习 人工智能 安全
千问团队开源会思考的QwQ模型,这模型成精了!
QwQ是由Qwen团队开发的大型语言模型,专注于增强AI的推理能力。此预览版本在数学和编程领域表现出色,但在其他领域仍有提升空间。模型具备深度自省和自我质疑的能力,通过逐步推理和假设检验,能够在复杂问题上取得突破性进展。QwQ不仅支持本地推理和Ollama直接运行,还提供了详细的微调指南,助力开发者根据特定需求定制模型。尽管QwQ在推理过程中存在语言切换和安全性等方面的局限性,Qwen团队仍致力于不断优化,推动模型向更高层次的智能迈进。[了解更多](https://modelscope.cn/studios/Qwen/QwQ-32B-preview)
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
65 4
下一篇
DataWorks