SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

2025-02-02 366

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型，具备拟人口语化表达、低延迟响应和多情感控制等功能。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

概述：SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型，基于百万小时级中文语音数据训练，支持情感控制和低延迟响应。
主要功能：具备拟人口语化表达、多情感控制、实时打断交互和多种语音才艺。
技术原理：采用超低比特率流式语音 Codec 和语义-声学联合建模，实现高效的语音文本混合建模。

SpeechGPT 2.0 是什么

SpeechGPT 2.0

SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的一款拟人化实时交互系统。该模型基于百万小时级的中文语音数据进行训练，采用端到端架构，实现了语音与文本模态的高度融合。它具有拟人口语化表达、百毫秒级低延迟响应，支持自然流畅的实时打断交互。此外，SpeechGPT 2.0 能够精准控制语速、情感、风格和音色，实现智能切换，并具备多种语音才艺，如诗歌朗诵、故事讲述、说方言等。

SpeechGPT 2.0 的主要功能

情感与风格控制：支持多情感（如虚弱、欢快）、多音色（男女切换）及多风格（诗歌朗诵、方言模仿）的精准控制，角色扮演能力突出。
实时打断交互：百毫秒级响应速度支持自然对话中的即时打断与续接。
文本能力集成：在语音表现力基础上，保留文本模型的智商，支持工具调用、联网搜索、外挂知识库接入等功能。
多任务兼容性：可处理长文档解析、多轮对话等场景，兼容短文本任务的性能未因长上下文能力而降低。

SpeechGPT 2.0 的技术原理

超低比特率流式语音 Codec：自研的超低比特率流式语音 Codec，能够处理 24khz 的语音输入，将语音压缩至每秒 75 个 token，支持流式输入输出，实现 200ms 以内延迟的实时交互。
语义-声学联合建模：通过语义-声学联合建模，直接处理语音输入并生成语音或文本输出，无需传统级联式 ASR（语音识别）和 TTS（语音合成）模块。
Codec Patchify：通过 Codec Patchify 技术聚合相邻时间步的语音 token 为统一向量，有效减小语音和文本序列之间的模态差异，缓解跨模态建模中的冲突问题。
多阶段训练流程：包括模态适应预训练、跨模态指令微调和链式模态微调，兼顾文本能力与语音能力，避免模型在学习语音能力时降低智商。
语音文本对齐预训练：通过充分的语音文本对齐预训练，模型可以“涌现”出语音风格的泛化性，例如无需语速调整数据即可控制语速，或模仿未见过的角色语气风格。

如何运行 SpeechGPT 2.0

1. 克隆仓库

git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview

        
          
        
        
        
          
          AI 代码解读

2. 下载模型权重

# 需要安装 git-lfs
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B

        
          
        
        
        
          
          AI 代码解读

3. 准备环境

pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation

        
          
        
        
        
          
          AI 代码解读

4. 启动网页 demo

python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/

        
          
        
        
        
          
          AI 代码解读

SpeechGPT-2.0-preview Gradio

资源

项目官网：https://www.open-moss.com/cn/speechgpt2-preview/
GitHub 仓库：https://github.com/OpenMOSS/SpeechGPT-2.0-preview
HuggingFace 仓库：https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
在线体验 Demo：https://sp2.open-moss.com/

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

🚀 快速阅读

SpeechGPT 2.0 是什么

SpeechGPT 2.0 的主要功能

SpeechGPT 2.0 的技术原理

如何运行 SpeechGPT 2.0

1. 克隆仓库

2. 下载模型权重

3. 准备环境

4. 启动网页 demo

资源

语音

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

🚀 快速阅读

SpeechGPT 2.0 是什么

SpeechGPT 2.0 的主要功能

SpeechGPT 2.0 的技术原理

如何运行 SpeechGPT 2.0

1. 克隆仓库

2. 下载模型权重

3. 准备环境

4. 启动网页 demo

资源

语音

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景