让大模型更懂你的情绪——通义实验室与中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo

简介: BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。

GPT-4o的亮相不仅揭示了端到端多模态模型在减少响应时间上的巨大潜力,更向我们展现了其在理解与生成富有深度情感的语音内容方面的卓越能力。尽管此技术的具体细节尚未向研究界全面公开,但其背后可能投入的海量数据和巨量计算资源都是难以轻易获得的宝贵资源。但是,通义实验室和中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo给我们提供了一个可能的实现方案。

在这项工作中,作者提出了一种创新性的内容情感对齐方法——BLSP-EmoBootstrapped Language-Speech Pretraining with Emotion support),该方法旨在赋予大语言模型理解语音输入中的语义与情感,并生成共情回复的能力。BLSP-Emo通过两阶段的对齐训练利用现有的语音识别(ASR)和语音情感识别(SER)数据,将语音中的语言信息和副语言情感信号有效对齐至大语言模型的语义理解空间中。

作者的实验结果表明,BLSP-Emo不仅能够执行多模态语音语言指令,还能对用户语音请求中蕴含的情感进行深刻的理解与共情响应,为构建更加人性化、更具有共情力的 AI 交互体验奠定了基础。

  • 论文地址:

https://arxiv.org/abs/2406.03872

  • Demo地址:

https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary

BLSP-Emo能做什么?

如上图所示,BLSP-Emo作为一款具有共情能力的语音对话模型,它能够深刻理解语音中的语义以及情感线索。即便面对语义内容相同的两段语音,BLSP-Emo也能够洞察其中不同的情绪色彩,并据此做出具有共情的回复,极大地丰富了人机互动的体验。作者在项目页面通过一系列多样化的Demo,展示BLSP-Emo在指令遵循和共情回复方面的卓越能力:https://cwang621.github.io/blsp-emo.github.io

你也可以通过以下链接在线试用BLSP-Emo:https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary

那么,BLSP-Emo是怎么训练的呢?

BLSP-Emo的模型架构如上图所示,通过一个模态适配器将语音编码器Whisper和大语言模型Qwen-7B-Chat连接起来。为了实现更好的语义和情感建模,BLSP-Emo经历了语义对齐和情感对齐两个阶段的训练过程。

在语义对齐阶段,BLSP-Emo依托于ASR数据,使大语言模型能够对语义内容一致的语音和文本,展现出一致的生成行为。这一阶段分为两个步骤:首先,通过续写指令引导大语言模型对语音的转录文本进行续写;接着,以文本续写结果作为监督信号,确保当模型输入相应语音片段时,能产生一致的续写结果。

在情感对齐阶段,BLSP-Emo进一步拓展了行为对齐的思想,利用SER数据训练大语言模型,在给定文本信息和情感标签或给定对应的语音输入下,展示一致的生成行为。这一阶段同样分为两步:首先是引导大语言模型根据语音的转录文本和情感标签生成文本续写;第二步利用文本续写作为监督信号,以实现在输入相应的语音片段时生成相同的续写。

更多详情可查看完整论文:

https://arxiv.org/abs/2406.03872

展望

BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。

点击链接👇查看原文

https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary?from=alizishequ__text

相关文章
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
39 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
4天前
|
人工智能 编解码 自然语言处理
AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互
AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,能够在多种平台上实现自主 GUI 交互,结合显式规划和推理,提升复杂数字环境中的导航和交互能力。
28 8
AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互
|
6天前
|
人工智能 开发框架 算法
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
Qwen-Agent 是阿里通义开源的一个基于 Qwen 模型的 Agent 应用开发框架,支持指令遵循、工具使用、规划和记忆能力,适用于构建复杂的智能代理应用。
80 10
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
|
13天前
|
人工智能 监控 算法
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。
117 18
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
|
10天前
|
存储 人工智能 人机交互
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。
84 1
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
|
11天前
|
关系型数据库 机器人 OLAP
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
|
9天前
|
人工智能 测试技术 开发者
通义发布最强开源多模态推理模型QVQ!
通义发布最强开源多模态推理模型QVQ!
154 18
|
2天前
|
编解码 Cloud Native 算法
通义万相:视觉生成大模型再进化
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用Diffusion Transformer架构,提升了模型的灵活性和可控性。通过高质量美学标准和多语言支持,大幅增强了画面表现力。此外,视频生成方面引入高压缩比VAE、1080P长视频生成及多样化艺术风格支持,实现了更丰富的创意表达。未来,通义万相将继续探索视觉领域的规模化和泛化,打造更加通用的视觉生成大模型。
|
11天前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
|
10天前
|
机器学习/深度学习 算法 网络协议
开源上新|通义语音处理技术ClearerVoice-Studio
开源上新|通义语音处理技术ClearerVoice-Studio

热门文章

最新文章