8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

简介: 【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]

近年来,大语言模型(LLMs)在各个领域的应用越来越广泛,但随着模型的不断发展和应用场景的不断变化,对模型的持续预训练(continual pre-training)的需求也日益增加。持续预训练是指对已经预训练好的LLMs进行进一步的训练,以适应新领域或新任务的需求。然而,持续预训练过程中常常会出现一个问题,即模型的性能在开始阶段会暂时下降,然后逐渐恢复,这个现象被称为“稳定性差距”(stability gap)。

为了解决这个问题,北京大学等机构的研究人员提出了一种名为“Efficient Continual Pre-training by Mitigating the Stability Gap”的方法,该方法通过三种策略来提高LLMs在持续预训练过程中的性能和效率。

首先,研究人员提出了一种多轮次的持续预训练方法。传统的持续预训练方法通常只进行一轮训练,即将LLMs在大量数据上进行一次训练。然而,这种方式会导致模型在开始阶段的性能下降。为了解决这个问题,研究人员提出了一种多轮次的持续预训练方法,即将LLMs在适当大小的数据子集上进行多轮训练。这种方式可以更快地恢复模型的性能,并提高模型的泛化能力。

其次,研究人员提出了一种基于高质量子语料库的持续预训练方法。在持续预训练过程中,数据的质量对模型的性能有着重要的影响。为了提高模型的性能,研究人员提出了一种基于高质量子语料库的持续预训练方法,即将LLMs在高质量的数据子集上进行训练。这种方式可以更快地提高模型在新领域的性能,并减少训练所需的时间和计算资源。

最后,研究人员提出了一种基于数据混合的持续预训练方法。在持续预训练过程中,数据的分布对模型的性能也有着重要的影响。为了减少数据分布的差异,研究人员提出了一种基于数据混合的持续预训练方法,即将LLMs在与预训练数据相似的数据混合集上进行训练。这种方式可以减少模型在新领域中的性能下降,并提高模型的泛化能力。

为了验证这些策略的有效性,研究人员在Llama系列模型上进行了各种实验。实验结果表明,这些策略可以显著提高LLMs在持续预训练过程中的性能和效率。例如,在医疗领域的持续预训练中,研究人员使用这些策略将OpenLlama-3B模型的平均任务性能从36.2%提高到40.7%,同时只使用了40%的原训练预算。此外,研究人员还将这些策略应用于Llama-3-8B模型,得到了一个名为Llama-3-Physician的模型,该模型在医疗领域的性能超过了当前所有的开源模型,甚至在某些医疗基准测试中与GPT-4相当或更好。

然而,这项研究也存在一些局限性。首先,尽管研究人员在Llama系列模型上进行了实验,但这些策略是否适用于其他类型的LLMs还有待进一步验证。其次,尽管这些策略可以提高模型的性能和效率,但持续预训练仍然是一个计算密集型的过程,需要大量的计算资源和时间。最后,尽管研究人员在医疗领域取得了显著的成果,但这些策略是否适用于其他领域还有待进一步研究。

论文链接:https://arxiv.org/abs/2406.14833

目录
相关文章
|
7月前
|
机器学习/深度学习 数据采集 算法
量子机器学习入门:三种数据编码方法对比与应用
在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。
544 8
|
机器学习/深度学习 存储 设计模式
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
501 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1555 6
|
机器学习/深度学习 数据采集 算法
Java 大视界 -- Java 大数据机器学习模型在金融衍生品定价中的创新方法与实践(166)
本文围绕 Java 大数据机器学习模型在金融衍生品定价中的应用展开,分析定价现状与挑战,阐述技术原理与应用,结合真实案例与代码给出实操方案,助力提升金融衍生品定价的准确性与效率。
Java 大视界 -- Java 大数据机器学习模型在金融衍生品定价中的创新方法与实践(166)
|
人工智能 Python
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。
2107 21
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
|
机器学习/深度学习 人工智能 PyTorch
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
本文将系统阐述DPO的工作原理、实现机制,以及其与传统RLHF和SFT方法的本质区别。
1330 22
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
2409 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
人工智能 编解码 算法
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。
2559 2
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%
清华大学与UCSD研究人员提出了一种创新微调方法,通过“世界知识蒸馏”和“工具使用适应”两组件,显著提升大型语言模型(LLM)解决科学问题的能力,同时保持其基本推理能力。实验结果显示,该方法在多个科学领域基准数据集上大幅提高了答案准确性和工具使用精度。论文地址:https://arxiv.org/abs/2411.00412
252 2
|
机器学习/深度学习 Web App开发 测试技术
NIPS 2024:代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法
在NIPS 2024上,UIUC、UC Berkeley等高校联合提出SelfCodeAlign方法,通过自我对齐使代码生成的大型语言模型(LLMs)在无需大量人工注释或蒸馏的情况下显著提升性能。该方法利用基础模型生成多样化编码任务并自我验证,最终选择通过测试的示例用于指令微调。实验表明,SelfCodeAlign微调的模型在多个编码任务上显著优于其他方法。论文地址:https://arxiv.org/pdf/2410.24198。
421 11

热门文章

最新文章