仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究

简介: 【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。

在人工智能领域,大型语言模型(LLMs)如ChatGPT已经展现出了强大的任务解决能力,成为人们日常生活中的得力助手。然而,这些模型主要支持文本交互,限制了它们在非文本输入输出场景中的应用。最近,OpenAI推出了GPT-4o,实现了通过语音与LLMs的实时交互,极大地提升了用户体验。然而,如何基于开源LLMs构建类似的语音交互模型,在学术界仍是一个亟待探索的领域。

针对这一挑战,中国科学院计算技术研究所的一支研究团队提出了一种名为LLaMA-Omni的新型模型架构。该模型旨在实现与LLMs的低延迟、高质量语音交互。LLaMA-Omni集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够直接从语音指令生成文本和语音响应,而无需进行语音转录,从而实现了极低的延迟。

LLaMA-Omni的模型架构包括四个主要组件:语音编码器、语音适配器、LLM和语音解码器。

  1. 语音编码器:研究团队采用了Whisper-large-v3的编码器作为语音编码器。Whisper是一种通用的语音识别模型,在大量音频数据上进行了训练,能够从语音中提取有意义的表示。

  2. 语音适配器:为了帮助LLM理解输入的语音,研究团队引入了一个可训练的语音适配器,将语音表示映射到LLM的嵌入空间。该适配器首先对语音表示进行下采样,以减少序列长度,然后通过一个两层感知机进行处理,得到最终的语音表示。

  3. 大型语言模型:研究团队选择了Llama-3.1-8B-Instruct作为LLM。这是目前最先进的开源LLM之一,具有强大的推理能力和与人类偏好的良好对齐性。

  4. 语音解码器:语音解码器是一个非自回归(NAR)的流式Transformer,它以LLM的输出隐藏状态作为输入,并使用连接主义时间分类(CTC)来预测与语音响应对应的离散单元序列。在推理过程中,当LLM自回归地生成文本响应时,语音解码器会同时生成相应的离散单元。

为了更好地适应语音交互场景的特点,研究团队构建了一个名为InstructS2S-200K的数据集,该数据集包含200K条语音指令和相应的语音响应。这些数据是通过重写现有的文本指令数据并进行语音合成而得到的。

在训练策略上,研究团队采用了两阶段的训练方法。第一阶段,他们使用文本指令数据对LLM进行微调,以使其能够根据文本指令生成相应的文本响应。第二阶段,他们使用InstructS2S-200K数据集对整个模型进行联合训练,以使其能够根据语音指令直接生成文本和语音响应。

实验结果表明,LLaMA-Omni在内容和风格上都能够提供更好的响应,并且响应延迟低至226ms。与之前的语音语言模型相比,LLaMA-Omni在训练数据和计算资源方面都有了显著的减少。仅使用4块GPU,不到3天的时间就完成了模型的训练。

这一成果不仅为基于最新LLMs的强大语音交互模型的高效开发铺平了道路,也为开源社区提供了一个可参考的解决方案。通过LLaMA-Omni,用户可以更自然地与LLMs进行交互,无需依赖文本输入输出,从而拓展了LLMs的应用场景。

正面评价:

  • 创新性:LLaMA-Omni的提出为基于开源LLMs的语音交互模型构建提供了新的思路和方法。其独特的模型架构和训练策略使得在有限的计算资源下实现高质量、低延迟的语音交互成为可能。
  • 实用性:该模型能够直接从语音指令生成文本和语音响应,无需进行语音转录,从而大大减少了系统延迟,提升了用户体验。这对于需要实时交互的应用场景,如智能助手、语音翻译等,具有重要的实用价值。
  • 开源性:研究团队将代码和模型开源,为学术界和工业界提供了一个可参考、可复现的解决方案。这有助于推动语音交互技术的发展和应用。

反面评价:

-数据集局限性:虽然研究团队构建了InstructS2S-200K数据集,但该数据集的规模和多样性可能仍存在一定的局限性。在实际应用中,模型可能需要面对更复杂、更多样化的语音指令和响应,因此数据集的进一步扩充和优化可能是必要的。

  • 模型鲁棒性:虽然LLaMA-Omni在实验中表现出了良好的性能,但在实际应用中,模型可能需要面对各种噪声、口音、语速变化等挑战。因此,模型的鲁棒性和泛化能力仍需要进一步验证和提升。
    -计算资源需求:虽然LLaMA-Omni在训练过程中仅使用了4块GPU,但对于一些资源有限的研究者或机构来说,这可能仍是一个较高的门槛。因此,如何进一步降低模型的训练和推理成本,使其能够更广泛地应用于各种场景,仍是一个值得探索的问题。

论文:https://arxiv.org/pdf/2409.06666

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
1天前
|
人工智能 自然语言处理 API
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务,能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。
90 11
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
|
1天前
|
机器学习/深度学习 人工智能 物联网
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型,最小版本仅需25.8M参数,适合在普通个人GPU上快速训练。
66 10
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
|
8天前
|
人工智能 算法 测试技术
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
OctoTools 是斯坦福大学推出的开源智能体框架,通过标准化工具卡片和自动化工具集优化算法,显著提升复杂推理任务的解决效率,支持多领域应用。
47 3
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
|
6天前
|
机器学习/深度学习 人工智能 编解码
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
R1-Onevision 是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调,专注于复杂视觉推理任务。它通过整合视觉和文本数据,能够在数学、科学、深度图像理解和逻辑推理等领域表现出色,并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。
60 0
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。
91 11
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
|
17天前
|
机器学习/深度学习 人工智能 并行计算
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
Unsloth 是一款开源的大语言模型微调工具,支持 Llama-3、Mistral、Phi-4 等主流 LLM,通过优化计算步骤和手写 GPU 内核,显著提升训练速度并减少内存使用。
250 3
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
|
2月前
|
人工智能 文字识别 异构计算
NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理
NVIDIA-Ingest 是英伟达开源的智能文档提取工具,支持 PDF、Word、PPT 等多种格式,提供并行处理和 GPU 加速,适用于企业内容管理和生成式应用。
131 18
NVIDIA-Ingest:英伟达开源智能文档提取及结构化工具,支持 GPU 加速和并行处理
|
2月前
|
人工智能 Python
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。
266 21
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
|
2月前
|
人工智能 语音技术 iOS开发
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。
367 10
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
|
3月前
|
机器学习/深度学习 人工智能 PyTorch
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
本文将系统阐述DPO的工作原理、实现机制,以及其与传统RLHF和SFT方法的本质区别。
121 22
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比

热门文章

最新文章