8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法

简介: 【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]

近年来,大语言模型(LLMs)在各个领域的应用越来越广泛,但随着模型的不断发展和应用场景的不断变化,对模型的持续预训练(continual pre-training)的需求也日益增加。持续预训练是指对已经预训练好的LLMs进行进一步的训练,以适应新领域或新任务的需求。然而,持续预训练过程中常常会出现一个问题,即模型的性能在开始阶段会暂时下降,然后逐渐恢复,这个现象被称为“稳定性差距”(stability gap)。

为了解决这个问题,北京大学等机构的研究人员提出了一种名为“Efficient Continual Pre-training by Mitigating the Stability Gap”的方法,该方法通过三种策略来提高LLMs在持续预训练过程中的性能和效率。

首先,研究人员提出了一种多轮次的持续预训练方法。传统的持续预训练方法通常只进行一轮训练,即将LLMs在大量数据上进行一次训练。然而,这种方式会导致模型在开始阶段的性能下降。为了解决这个问题,研究人员提出了一种多轮次的持续预训练方法,即将LLMs在适当大小的数据子集上进行多轮训练。这种方式可以更快地恢复模型的性能,并提高模型的泛化能力。

其次,研究人员提出了一种基于高质量子语料库的持续预训练方法。在持续预训练过程中,数据的质量对模型的性能有着重要的影响。为了提高模型的性能,研究人员提出了一种基于高质量子语料库的持续预训练方法,即将LLMs在高质量的数据子集上进行训练。这种方式可以更快地提高模型在新领域的性能,并减少训练所需的时间和计算资源。

最后,研究人员提出了一种基于数据混合的持续预训练方法。在持续预训练过程中,数据的分布对模型的性能也有着重要的影响。为了减少数据分布的差异,研究人员提出了一种基于数据混合的持续预训练方法,即将LLMs在与预训练数据相似的数据混合集上进行训练。这种方式可以减少模型在新领域中的性能下降,并提高模型的泛化能力。

为了验证这些策略的有效性,研究人员在Llama系列模型上进行了各种实验。实验结果表明,这些策略可以显著提高LLMs在持续预训练过程中的性能和效率。例如,在医疗领域的持续预训练中,研究人员使用这些策略将OpenLlama-3B模型的平均任务性能从36.2%提高到40.7%,同时只使用了40%的原训练预算。此外,研究人员还将这些策略应用于Llama-3-8B模型,得到了一个名为Llama-3-Physician的模型,该模型在医疗领域的性能超过了当前所有的开源模型,甚至在某些医疗基准测试中与GPT-4相当或更好。

然而,这项研究也存在一些局限性。首先,尽管研究人员在Llama系列模型上进行了实验,但这些策略是否适用于其他类型的LLMs还有待进一步验证。其次,尽管这些策略可以提高模型的性能和效率,但持续预训练仍然是一个计算密集型的过程,需要大量的计算资源和时间。最后,尽管研究人员在医疗领域取得了显著的成果,但这些策略是否适用于其他领域还有待进一步研究。

论文链接:https://arxiv.org/abs/2406.14833

目录
相关文章
|
3天前
清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%
清华大学与UCSD研究人员提出了一种创新微调方法,通过“世界知识蒸馏”和“工具使用适应”两组件,显著提升大型语言模型(LLM)解决科学问题的能力,同时保持其基本推理能力。实验结果显示,该方法在多个科学领域基准数据集上大幅提高了答案准确性和工具使用精度。论文地址:https://arxiv.org/abs/2411.00412
15 2
|
20天前
|
机器学习/深度学习 Web App开发 测试技术
NIPS 2024:代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法
在NIPS 2024上,UIUC、UC Berkeley等高校联合提出SelfCodeAlign方法,通过自我对齐使代码生成的大型语言模型(LLMs)在无需大量人工注释或蒸馏的情况下显著提升性能。该方法利用基础模型生成多样化编码任务并自我验证,最终选择通过测试的示例用于指令微调。实验表明,SelfCodeAlign微调的模型在多个编码任务上显著优于其他方法。论文地址:https://arxiv.org/pdf/2410.24198。
40 11
|
2月前
|
人工智能 编解码 算法
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。
407 2
Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet
|
2月前
|
机器学习/深度学习 人工智能 算法
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
Kimi k1.5 是月之暗面推出的多模态思考模型,具备强大的推理和多模态处理能力,支持长链思维与短链思维,性能超越GPT-4和Claude 3.5。
386 10
k1.5:性能超越 GPT-4 和 Claude 3.5!Kimi 新一代多模态推理模型
|
2月前
|
人工智能 Python
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。
286 21
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
|
2月前
|
机器学习/深度学习 存储 设计模式
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
148 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
|
2月前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
409 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
3月前
|
机器学习/深度学习 人工智能 PyTorch
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
本文将系统阐述DPO的工作原理、实现机制,以及其与传统RLHF和SFT方法的本质区别。
124 22
使用PyTorch实现GPT-2直接偏好优化训练:DPO方法改进及其与监督微调的效果对比
|
3月前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
177 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
3月前
|
数据采集 人工智能 数据可视化
InternVL 2.5,首个MMMU超过70%的开源模型,性能媲美GPT-4o
近期Internvl2.5发布,性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美,成为首个在MMMU上超过70%的开源模型,通过链式思考(CoT)推理实现了3.7个百分点的提升,展示了强大的测试时间可扩展性潜力。

热门文章

最新文章