GPT-4o的亮相不仅揭示了端到端多模态模型在减少响应时间上的巨大潜力,更向我们展现了其在理解与生成富有深度情感的语音内容方面的卓越能力。尽管此技术的具体细节尚未向研究界全面公开,但其背后可能投入的海量数据和巨量计算资源都是难以轻易获得的宝贵资源。但是,通义实验室和中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo给我们提供了一个可能的实现方案。
在这项工作中,作者提出了一种创新性的内容情感对齐方法——BLSP-Emo(Bootstrapped Language-Speech Pretraining with Emotion support),该方法旨在赋予大语言模型理解语音输入中的语义与情感,并生成共情回复的能力。BLSP-Emo通过两阶段的对齐训练利用现有的语音识别(ASR)和语音情感识别(SER)数据,将语音中的语言信息和副语言情感信号有效对齐至大语言模型的语义理解空间中。
作者的实验结果表明,BLSP-Emo不仅能够执行多模态语音语言指令,还能对用户语音请求中蕴含的情感进行深刻的理解与共情响应,为构建更加人性化、更具有共情力的 AI 交互体验奠定了基础。
- 论文地址:
https://arxiv.org/abs/2406.03872
- Demo地址:
https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary
BLSP-Emo能做什么?
如上图所示,BLSP-Emo作为一款具有共情能力的语音对话模型,它能够深刻理解语音中的语义以及情感线索。即便面对语义内容相同的两段语音,BLSP-Emo也能够洞察其中不同的情绪色彩,并据此做出具有共情的回复,极大地丰富了人机互动的体验。作者在项目页面通过一系列多样化的Demo,展示BLSP-Emo在指令遵循和共情回复方面的卓越能力:https://cwang621.github.io/blsp-emo.github.io
你也可以通过以下链接在线试用BLSP-Emo:https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary
那么,BLSP-Emo是怎么训练的呢?
BLSP-Emo的模型架构如上图所示,通过一个模态适配器将语音编码器Whisper和大语言模型Qwen-7B-Chat连接起来。为了实现更好的语义和情感建模,BLSP-Emo经历了语义对齐和情感对齐两个阶段的训练过程。
在语义对齐阶段,BLSP-Emo依托于ASR数据,使大语言模型能够对语义内容一致的语音和文本,展现出一致的生成行为。这一阶段分为两个步骤:首先,通过续写指令引导大语言模型对语音的转录文本进行续写;接着,以文本续写结果作为监督信号,确保当模型输入相应语音片段时,能产生一致的续写结果。
在情感对齐阶段,BLSP-Emo进一步拓展了行为对齐的思想,利用SER数据训练大语言模型,在给定文本信息和情感标签或给定对应的语音输入下,展示一致的生成行为。这一阶段同样分为两步:首先是引导大语言模型根据语音的转录文本和情感标签生成文本续写;第二步利用文本续写作为监督信号,以实现在输入相应的语音片段时生成相同的续写。
更多详情可查看完整论文:
https://arxiv.org/abs/2406.03872
展望
BLSP-Emo模型展示了情感智能在人机交互中的重要性,未来的多模态模型将更加注重情感的识别和表达,使得机器能够更加准确地理解和回应用户的情感状态,甚至生成富有情感的语音反馈。同时,BLSP-Emo展示了将副语言信号对齐到大语言模型语义空间的可能性,我们期待着更加人性化、更具有共情力的对话交互模型的出现。
点击链接👇查看原文
https://www.modelscope.cn/studios/Decaderan/Blsp-Qwen-7B-Demo/summary?from=alizishequ__text