仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究

简介: 【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。

在人工智能领域,大型语言模型(LLMs)如ChatGPT已经展现出了强大的任务解决能力,成为人们日常生活中的得力助手。然而,这些模型主要支持文本交互,限制了它们在非文本输入输出场景中的应用。最近,OpenAI推出了GPT-4o,实现了通过语音与LLMs的实时交互,极大地提升了用户体验。然而,如何基于开源LLMs构建类似的语音交互模型,在学术界仍是一个亟待探索的领域。

针对这一挑战,中国科学院计算技术研究所的一支研究团队提出了一种名为LLaMA-Omni的新型模型架构。该模型旨在实现与LLMs的低延迟、高质量语音交互。LLaMA-Omni集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够直接从语音指令生成文本和语音响应,而无需进行语音转录,从而实现了极低的延迟。

LLaMA-Omni的模型架构包括四个主要组件:语音编码器、语音适配器、LLM和语音解码器。

  1. 语音编码器:研究团队采用了Whisper-large-v3的编码器作为语音编码器。Whisper是一种通用的语音识别模型,在大量音频数据上进行了训练,能够从语音中提取有意义的表示。

  2. 语音适配器:为了帮助LLM理解输入的语音,研究团队引入了一个可训练的语音适配器,将语音表示映射到LLM的嵌入空间。该适配器首先对语音表示进行下采样,以减少序列长度,然后通过一个两层感知机进行处理,得到最终的语音表示。

  3. 大型语言模型:研究团队选择了Llama-3.1-8B-Instruct作为LLM。这是目前最先进的开源LLM之一,具有强大的推理能力和与人类偏好的良好对齐性。

  4. 语音解码器:语音解码器是一个非自回归(NAR)的流式Transformer,它以LLM的输出隐藏状态作为输入,并使用连接主义时间分类(CTC)来预测与语音响应对应的离散单元序列。在推理过程中,当LLM自回归地生成文本响应时,语音解码器会同时生成相应的离散单元。

为了更好地适应语音交互场景的特点,研究团队构建了一个名为InstructS2S-200K的数据集,该数据集包含200K条语音指令和相应的语音响应。这些数据是通过重写现有的文本指令数据并进行语音合成而得到的。

在训练策略上,研究团队采用了两阶段的训练方法。第一阶段,他们使用文本指令数据对LLM进行微调,以使其能够根据文本指令生成相应的文本响应。第二阶段,他们使用InstructS2S-200K数据集对整个模型进行联合训练,以使其能够根据语音指令直接生成文本和语音响应。

实验结果表明,LLaMA-Omni在内容和风格上都能够提供更好的响应,并且响应延迟低至226ms。与之前的语音语言模型相比,LLaMA-Omni在训练数据和计算资源方面都有了显著的减少。仅使用4块GPU,不到3天的时间就完成了模型的训练。

这一成果不仅为基于最新LLMs的强大语音交互模型的高效开发铺平了道路,也为开源社区提供了一个可参考的解决方案。通过LLaMA-Omni,用户可以更自然地与LLMs进行交互,无需依赖文本输入输出,从而拓展了LLMs的应用场景。

正面评价:

  • 创新性:LLaMA-Omni的提出为基于开源LLMs的语音交互模型构建提供了新的思路和方法。其独特的模型架构和训练策略使得在有限的计算资源下实现高质量、低延迟的语音交互成为可能。
  • 实用性:该模型能够直接从语音指令生成文本和语音响应,无需进行语音转录,从而大大减少了系统延迟,提升了用户体验。这对于需要实时交互的应用场景,如智能助手、语音翻译等,具有重要的实用价值。
  • 开源性:研究团队将代码和模型开源,为学术界和工业界提供了一个可参考、可复现的解决方案。这有助于推动语音交互技术的发展和应用。

反面评价:

-数据集局限性:虽然研究团队构建了InstructS2S-200K数据集,但该数据集的规模和多样性可能仍存在一定的局限性。在实际应用中,模型可能需要面对更复杂、更多样化的语音指令和响应,因此数据集的进一步扩充和优化可能是必要的。

  • 模型鲁棒性:虽然LLaMA-Omni在实验中表现出了良好的性能,但在实际应用中,模型可能需要面对各种噪声、口音、语速变化等挑战。因此,模型的鲁棒性和泛化能力仍需要进一步验证和提升。
    -计算资源需求:虽然LLaMA-Omni在训练过程中仅使用了4块GPU,但对于一些资源有限的研究者或机构来说,这可能仍是一个较高的门槛。因此,如何进一步降低模型的训练和推理成本,使其能够更广泛地应用于各种场景,仍是一个值得探索的问题。

论文:https://arxiv.org/pdf/2409.06666

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
4月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
259 17
|
5月前
|
人工智能 Linux API
119K star!无需GPU轻松本地部署多款大模型,DeepSeek支持!这个开源神器绝了
"只需一行命令就能在本地运行Llama 3、DeepSeek-R1等前沿大模型,支持Windows/Mac/Linux全平台,这个开源项目让AI开发从未如此简单!"
259 0
|
2月前
|
人工智能 数据挖掘 API
Kimi K2开源炸场,1万亿参数碾压GPT-4.1,成本仅Claude 4的1/5!
月之暗面开源的万亿参数大模型Kimi K2引发行业震动,48小时内即登顶OpenRouter API调用榜,GitHub项目激增200%。该模型在代码生成、Agent任务及中文创作上超越Claude 4,标志着中国大模型首次在三大核心能力上达到全球顶尖水平。
|
5月前
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
299 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
|
4月前
|
人工智能 API 开发者
狂揽7.5k星!这款开源API网关彻底解放开发者:一键聚合GPT-4、Suno、Midjourney,还能在线充值!
New API 是一款基于 One API 二次开发的 AI 模型接口管理与分发系统,支持多种大模型(如 GPT-4、Suno、Midjourney 等)统一封装为 OpenAI 格式接口调用。其核心功能包括多模型统一网关、企业级权限管控、“推理力度”分级、无魔法访问全球 AI 服务、灵活计费体系及开发者友好设计。技术架构采用 Golang + Gin 框架,支持高并发低延迟,适用于企业内部 AI 中台、多模型 SaaS 平台、学术研究协作及个人开发者工具等场景。项目开源地址:https://github.com/kingbug/new-api。
1133 6
|
5月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
289 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
5月前
|
编解码 开发者
ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放
ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放
130 3
|
6月前
|
人工智能 自然语言处理 API
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务,能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。
477 11
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
|
6月前
|
机器学习/深度学习 人工智能 物联网
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型,最小版本仅需25.8M参数,适合在普通个人GPU上快速训练。
1184 10
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。
1080 11
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器

热门文章

最新文章