仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究

简介: 【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。

在人工智能领域,大型语言模型(LLMs)如ChatGPT已经展现出了强大的任务解决能力,成为人们日常生活中的得力助手。然而,这些模型主要支持文本交互,限制了它们在非文本输入输出场景中的应用。最近,OpenAI推出了GPT-4o,实现了通过语音与LLMs的实时交互,极大地提升了用户体验。然而,如何基于开源LLMs构建类似的语音交互模型,在学术界仍是一个亟待探索的领域。

针对这一挑战,中国科学院计算技术研究所的一支研究团队提出了一种名为LLaMA-Omni的新型模型架构。该模型旨在实现与LLMs的低延迟、高质量语音交互。LLaMA-Omni集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够直接从语音指令生成文本和语音响应,而无需进行语音转录,从而实现了极低的延迟。

LLaMA-Omni的模型架构包括四个主要组件:语音编码器、语音适配器、LLM和语音解码器。

  1. 语音编码器:研究团队采用了Whisper-large-v3的编码器作为语音编码器。Whisper是一种通用的语音识别模型,在大量音频数据上进行了训练,能够从语音中提取有意义的表示。

  2. 语音适配器:为了帮助LLM理解输入的语音,研究团队引入了一个可训练的语音适配器,将语音表示映射到LLM的嵌入空间。该适配器首先对语音表示进行下采样,以减少序列长度,然后通过一个两层感知机进行处理,得到最终的语音表示。

  3. 大型语言模型:研究团队选择了Llama-3.1-8B-Instruct作为LLM。这是目前最先进的开源LLM之一,具有强大的推理能力和与人类偏好的良好对齐性。

  4. 语音解码器:语音解码器是一个非自回归(NAR)的流式Transformer,它以LLM的输出隐藏状态作为输入,并使用连接主义时间分类(CTC)来预测与语音响应对应的离散单元序列。在推理过程中,当LLM自回归地生成文本响应时,语音解码器会同时生成相应的离散单元。

为了更好地适应语音交互场景的特点,研究团队构建了一个名为InstructS2S-200K的数据集,该数据集包含200K条语音指令和相应的语音响应。这些数据是通过重写现有的文本指令数据并进行语音合成而得到的。

在训练策略上,研究团队采用了两阶段的训练方法。第一阶段,他们使用文本指令数据对LLM进行微调,以使其能够根据文本指令生成相应的文本响应。第二阶段,他们使用InstructS2S-200K数据集对整个模型进行联合训练,以使其能够根据语音指令直接生成文本和语音响应。

实验结果表明,LLaMA-Omni在内容和风格上都能够提供更好的响应,并且响应延迟低至226ms。与之前的语音语言模型相比,LLaMA-Omni在训练数据和计算资源方面都有了显著的减少。仅使用4块GPU,不到3天的时间就完成了模型的训练。

这一成果不仅为基于最新LLMs的强大语音交互模型的高效开发铺平了道路,也为开源社区提供了一个可参考的解决方案。通过LLaMA-Omni,用户可以更自然地与LLMs进行交互,无需依赖文本输入输出,从而拓展了LLMs的应用场景。

正面评价:

  • 创新性:LLaMA-Omni的提出为基于开源LLMs的语音交互模型构建提供了新的思路和方法。其独特的模型架构和训练策略使得在有限的计算资源下实现高质量、低延迟的语音交互成为可能。
  • 实用性:该模型能够直接从语音指令生成文本和语音响应,无需进行语音转录,从而大大减少了系统延迟,提升了用户体验。这对于需要实时交互的应用场景,如智能助手、语音翻译等,具有重要的实用价值。
  • 开源性:研究团队将代码和模型开源,为学术界和工业界提供了一个可参考、可复现的解决方案。这有助于推动语音交互技术的发展和应用。

反面评价:

-数据集局限性:虽然研究团队构建了InstructS2S-200K数据集,但该数据集的规模和多样性可能仍存在一定的局限性。在实际应用中,模型可能需要面对更复杂、更多样化的语音指令和响应,因此数据集的进一步扩充和优化可能是必要的。

  • 模型鲁棒性:虽然LLaMA-Omni在实验中表现出了良好的性能,但在实际应用中,模型可能需要面对各种噪声、口音、语速变化等挑战。因此,模型的鲁棒性和泛化能力仍需要进一步验证和提升。
    -计算资源需求:虽然LLaMA-Omni在训练过程中仅使用了4块GPU,但对于一些资源有限的研究者或机构来说,这可能仍是一个较高的门槛。因此,如何进一步降低模型的训练和推理成本,使其能够更广泛地应用于各种场景,仍是一个值得探索的问题。

论文:https://arxiv.org/pdf/2409.06666

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
2月前
|
并行计算 Shell TensorFlow
Tensorflow-GPU训练MTCNN出现错误-Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
在使用TensorFlow-GPU训练MTCNN时,如果遇到“Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED”错误,通常是由于TensorFlow、CUDA和cuDNN版本不兼容或显存分配问题导致的,可以通过安装匹配的版本或在代码中设置动态显存分配来解决。
55 1
Tensorflow-GPU训练MTCNN出现错误-Could not create cudnn handle: CUDNN_STATUS_NOT_INITIALIZED
|
2月前
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
86 4
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
GPT学术优化:专为学术研究和写作设计的多功能开源项目
GPT学术优化是一个专为学术研究和写作设计的多功能开源项目,集成了论文翻译、源代码解析、互联网信息获取、Latex文章校对、论文润色和摘要生成等多项实用功能。本文将详细介绍GPT学术优化的主要功能、技术原理以及如何运行该项目的教程。
55 11
GPT学术优化:专为学术研究和写作设计的多功能开源项目
|
11天前
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。
|
17天前
|
缓存 算法 关系型数据库
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。
45 14
|
2月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
179 60
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
53 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开
【10月更文挑战第20天】近日,开源版GPT-4o的发布成为AI领域的焦点。作为GPT系列的最新成员,GPT-4o在性能和多模态数据处理方面实现了显著提升,得到了知名AI专家Andrej Karpathy的高度评价。该模型的开源特性将进一步促进AI研究的进展。
59 3
|
2月前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
1月前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
下一篇
DataWorks