仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究

简介: 【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。

在人工智能领域,大型语言模型(LLMs)如ChatGPT已经展现出了强大的任务解决能力,成为人们日常生活中的得力助手。然而,这些模型主要支持文本交互,限制了它们在非文本输入输出场景中的应用。最近,OpenAI推出了GPT-4o,实现了通过语音与LLMs的实时交互,极大地提升了用户体验。然而,如何基于开源LLMs构建类似的语音交互模型,在学术界仍是一个亟待探索的领域。

针对这一挑战,中国科学院计算技术研究所的一支研究团队提出了一种名为LLaMA-Omni的新型模型架构。该模型旨在实现与LLMs的低延迟、高质量语音交互。LLaMA-Omni集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够直接从语音指令生成文本和语音响应,而无需进行语音转录,从而实现了极低的延迟。

LLaMA-Omni的模型架构包括四个主要组件:语音编码器、语音适配器、LLM和语音解码器。

  1. 语音编码器:研究团队采用了Whisper-large-v3的编码器作为语音编码器。Whisper是一种通用的语音识别模型,在大量音频数据上进行了训练,能够从语音中提取有意义的表示。

  2. 语音适配器:为了帮助LLM理解输入的语音,研究团队引入了一个可训练的语音适配器,将语音表示映射到LLM的嵌入空间。该适配器首先对语音表示进行下采样,以减少序列长度,然后通过一个两层感知机进行处理,得到最终的语音表示。

  3. 大型语言模型:研究团队选择了Llama-3.1-8B-Instruct作为LLM。这是目前最先进的开源LLM之一,具有强大的推理能力和与人类偏好的良好对齐性。

  4. 语音解码器:语音解码器是一个非自回归(NAR)的流式Transformer,它以LLM的输出隐藏状态作为输入,并使用连接主义时间分类(CTC)来预测与语音响应对应的离散单元序列。在推理过程中,当LLM自回归地生成文本响应时,语音解码器会同时生成相应的离散单元。

为了更好地适应语音交互场景的特点,研究团队构建了一个名为InstructS2S-200K的数据集,该数据集包含200K条语音指令和相应的语音响应。这些数据是通过重写现有的文本指令数据并进行语音合成而得到的。

在训练策略上,研究团队采用了两阶段的训练方法。第一阶段,他们使用文本指令数据对LLM进行微调,以使其能够根据文本指令生成相应的文本响应。第二阶段,他们使用InstructS2S-200K数据集对整个模型进行联合训练,以使其能够根据语音指令直接生成文本和语音响应。

实验结果表明,LLaMA-Omni在内容和风格上都能够提供更好的响应,并且响应延迟低至226ms。与之前的语音语言模型相比,LLaMA-Omni在训练数据和计算资源方面都有了显著的减少。仅使用4块GPU,不到3天的时间就完成了模型的训练。

这一成果不仅为基于最新LLMs的强大语音交互模型的高效开发铺平了道路,也为开源社区提供了一个可参考的解决方案。通过LLaMA-Omni,用户可以更自然地与LLMs进行交互,无需依赖文本输入输出,从而拓展了LLMs的应用场景。

正面评价:

  • 创新性:LLaMA-Omni的提出为基于开源LLMs的语音交互模型构建提供了新的思路和方法。其独特的模型架构和训练策略使得在有限的计算资源下实现高质量、低延迟的语音交互成为可能。
  • 实用性:该模型能够直接从语音指令生成文本和语音响应,无需进行语音转录,从而大大减少了系统延迟,提升了用户体验。这对于需要实时交互的应用场景,如智能助手、语音翻译等,具有重要的实用价值。
  • 开源性:研究团队将代码和模型开源,为学术界和工业界提供了一个可参考、可复现的解决方案。这有助于推动语音交互技术的发展和应用。

反面评价:

-数据集局限性:虽然研究团队构建了InstructS2S-200K数据集,但该数据集的规模和多样性可能仍存在一定的局限性。在实际应用中,模型可能需要面对更复杂、更多样化的语音指令和响应,因此数据集的进一步扩充和优化可能是必要的。

  • 模型鲁棒性:虽然LLaMA-Omni在实验中表现出了良好的性能,但在实际应用中,模型可能需要面对各种噪声、口音、语速变化等挑战。因此,模型的鲁棒性和泛化能力仍需要进一步验证和提升。
    -计算资源需求:虽然LLaMA-Omni在训练过程中仅使用了4块GPU,但对于一些资源有限的研究者或机构来说,这可能仍是一个较高的门槛。因此,如何进一步降低模型的训练和推理成本,使其能够更广泛地应用于各种场景,仍是一个值得探索的问题。

论文:https://arxiv.org/pdf/2409.06666

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
1月前
|
并行计算 Shell TensorFlow
Tensorflow-GPU训练MTCNN出现错误-Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
在使用TensorFlow-GPU训练MTCNN时,如果遇到“Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED”错误,通常是由于TensorFlow、CUDA和cuDNN版本不兼容或显存分配问题导致的,可以通过安装匹配的版本或在代码中设置动态显存分配来解决。
48 1
Tensorflow-GPU训练MTCNN出现错误-Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
|
1月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
153 60
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
36 3
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开
【10月更文挑战第20天】近日,开源版GPT-4o的发布成为AI领域的焦点。作为GPT系列的最新成员,GPT-4o在性能和多模态数据处理方面实现了显著提升,得到了知名AI专家Andrej Karpathy的高度评价。该模型的开源特性将进一步促进AI研究的进展。
45 3
|
3月前
|
机器学习/深度学习 并行计算 PyTorch
GPU 加速与 PyTorch:最大化硬件性能提升训练速度
【8月更文第29天】GPU(图形处理单元)因其并行计算能力而成为深度学习领域的重要组成部分。本文将介绍如何利用PyTorch来高效地利用GPU进行深度学习模型的训练,从而最大化训练速度。我们将讨论如何配置环境、选择合适的硬件、编写高效的代码以及利用高级特性来提高性能。
699 1
|
4月前
|
机器学习/深度学习 自然语言处理 Swift
从头构建和训练 GPT-2 |实战
从头构建和训练 GPT-2 |实战
59 4
|
3月前
|
并行计算 算法 调度
自研分布式训练框架EPL问题之提高GPU利用率如何解决
自研分布式训练框架EPL问题之提高GPU利用率如何解决
|
4月前
|
人工智能 安全
又遇到GPT写的review了?看看北大&密歇根的这个研究工作
【7月更文挑战第27天】北大的一项研究"Eliciting Informative Text Evaluations with Large Language Models"探讨了如何利用大型语言模型激励高质量文本反馈。提出两种机制:生成式同行预测机制(GPPM)和生成式概要同行预测机制(GSPPM),通过一致性评分鼓励详细准确的反馈。实验表明GSPPM能有效区分人工及AI生成内容,尤其擅长降低大型语言模型生成评论的影响。但仍面临模型预测偏差、潜在操纵等挑战。[论文](https://arxiv.org/abs/2405.15077)
47 4
|
4月前
|
数据采集 人工智能 自然语言处理
GPT被封锁了怎么办?轻松获取高质量的数据,训练自己的人工智能和大语言模型。
2023年标志着AI大模型时代的到来,GPT-4等模型在多个领域展现巨大潜力。然而,OpenAI对中国区服务的限制提出了挑战。本文探讨如何使用亮数据代理获取训练大模型所需的数据,包括确定目标、选择代理、数据抓取、清洗,并以西方历史为例,展示如何使用亮数据的静态住宅代理稳定获取DE区域数据,最终在国产AI平台上训练模型,提升知识库的丰富度和准确性。尽管面临外部障碍,但自主获取和训练数据能增强本土AI能力。
|
4月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
50 3
下一篇
无影云桌面