ChatGPT充当大脑,指挥AudioGPT解决语音、音乐、音效等任务

简介: ChatGPT充当大脑,指挥AudioGPT解决语音、音乐、音效等任务

能说会唱的 AudioGPT 惊艳亮相。


最近几个月,ChatGPT、GPT-4 横空出世,火爆出圈,大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出的非凡能力,引起了学界和业界的极大关注,也让人们看到了 LLM 在构建通用人工智能 (AGI) 系统方面的潜力。
现有的 GPT 模型具有极高的语言生成能力,是目前最为先进的自然语言处理模型之一,广泛应用于对话、翻译、代码生成等的自然语言处理领域。除了书面语言,用户在自然对话中主要使用口语 (Spoken Language),而传统大语言模型却无法胜任音频理解与生成任务:

  • GPT 模态限制。用户在自然对话中主要使用口语,对口语理解与合成有极大需求,而单模态 GPT 不能满足对音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成需求。
  • 音频数据、模型相对少。基础模型 (Foundation Model) 少或交互性差。相较于文本模态,用于重新训练语音多模态 GPT 的数据较少。
  • 用户交互性差。用户广泛的使用语音助手如 Siri, Alexa 基于自然对话高效地完成工作。然而目前 GPT 之间的交互大多根据键盘输入的文本,交互性差,口语交互更能拉进和用户之间的关系,提升模型易用性。


最近,浙江大学、北京大学、卡内基梅隆大学和中国人民大学的研究人员针对性的解决以上难题,提出了全新的音频理解与生成系统 AudioGPT。AudioGPT 以 ChatGPT 充当负责对话与控制的大脑,语音基础模型协同以完成跨模态转换、以及音频 (语音、音乐、背景音、3D 说话人) 模态的理解、生成,能够解决 20 + 种多语种、多模态的 AI 音频任务。



听觉效果超炫

现在,HuggingGPT 增加了 Gradio 演示:




相关文章
|
2月前
|
安全 Linux API
任务冻结 【ChatGPT】
任务冻结 【ChatGPT】
|
存储 机器学习/深度学习 人工智能
ChatGPT盛行的当下,向量数据库为大模型配备了一个超级大脑
ChatGPT盛行的当下,向量数据库为大模型配备了一个超级大脑
497 0
|
数据采集 Web App开发 人工智能
让ChatGPT充当程序员,帮你无代码实现网络爬虫
让ChatGPT充当程序员,帮你无代码实现网络爬虫
209 0
|
人工智能 JSON 安全
能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么
能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么
152 0
|
人工智能 API Python
语音输入、多版本答案、……这八件事Bard能而ChatGPT不能做
语音输入、多版本答案、……这八件事Bard能而ChatGPT不能做
|
机器学习/深度学习 人工智能 算法
用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务
用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务
199 0
|
人工智能 自然语言处理 安全
多个ChatGPT合作完成指定任务,迷你AGI控制世界要来了?(2)
多个ChatGPT合作完成指定任务,迷你AGI控制世界要来了?
111 0
|
人工智能 监控 机器人
多个ChatGPT合作完成指定任务,迷你AGI控制世界要来了?(1)
多个ChatGPT合作完成指定任务,迷你AGI控制世界要来了?
162 0
|
人工智能
用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事(2)
用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事
118 0
|
机器学习/深度学习 人工智能 自然语言处理
用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事(1)
用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事
128 0