ChatGPT充当大脑，指挥AudioGPT解决语音、音乐、音效等任务-阿里云开发者社区

ChatGPT充当大脑，指挥AudioGPT解决语音、音乐、音效等任务

2023-05-25 176

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ChatGPT充当大脑，指挥AudioGPT解决语音、音乐、音效等任务

能说会唱的 AudioGPT 惊艳亮相。

最近几个月，ChatGPT、GPT-4 横空出世，火爆出圈，大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出的非凡能力，引起了学界和业界的极大关注，也让人们看到了 LLM 在构建通用人工智能 (AGI) 系统方面的潜力。
现有的 GPT 模型具有极高的语言生成能力，是目前最为先进的自然语言处理模型之一，广泛应用于对话、翻译、代码生成等的自然语言处理领域。除了书面语言，用户在自然对话中主要使用口语 (Spoken Language)，而传统大语言模型却无法胜任音频理解与生成任务：

GPT 模态限制。用户在自然对话中主要使用口语，对口语理解与合成有极大需求，而单模态 GPT 不能满足对音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成需求。
音频数据、模型相对少。基础模型 (Foundation Model) 少或交互性差。相较于文本模态，用于重新训练语音多模态 GPT 的数据较少。
用户交互性差。用户广泛的使用语音助手如 Siri, Alexa 基于自然对话高效地完成工作。然而目前 GPT 之间的交互大多根据键盘输入的文本，交互性差，口语交互更能拉进和用户之间的关系，提升模型易用性。

最近，浙江大学、北京大学、卡内基梅隆大学和中国人民大学的研究人员针对性的解决以上难题，提出了全新的音频理解与生成系统 AudioGPT。AudioGPT 以 ChatGPT 充当负责对话与控制的大脑，语音基础模型协同以完成跨模态转换、以及音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成，能够解决 20 + 种多语种、多模态的 AI 音频任务。

论文地址：https://arxiv.org/pdf/2304.12995.pdf
Github：https://github.com/AIGC-Audio/AudioGPT
Huggingg Face: https://huggingface.co/spaces/AIGC-Audio/AudioGPT

听觉效果超炫

现在，HuggingGPT 增加了 Gradio 演示:

ChatGPT充当大脑，指挥AudioGPT解决语音、音乐、音效等任务

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

ChatGPT充当大脑，指挥AudioGPT解决语音、音乐、音效等任务

热门文章

最新文章

相关电子书