清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%

简介: 清华大学与UCSD研究人员提出了一种创新微调方法,通过“世界知识蒸馏”和“工具使用适应”两组件,显著提升大型语言模型(LLM)解决科学问题的能力,同时保持其基本推理能力。实验结果显示,该方法在多个科学领域基准数据集上大幅提高了答案准确性和工具使用精度。论文地址:https://arxiv.org/abs/2411.00412

清华大学与加州大学圣地亚哥分校(UCSD)的研究人员最近提出了一种创新的微调方法,该方法通过智能工具使用适应,显著提高了大型语言模型(LLM)在解决科学问题时的性能。这种方法不仅在解决复杂科学问题上取得了显著进展,还保持了模型在解决简单问题上的基本推理能力。

传统的方法中,LLM在解决科学问题时,尤其是复杂问题,往往会出现“幻觉”现象,即生成不准确或不相关的答案。虽然将LLM与工具集成可以提高可靠性,但这种方法通常会导致对工具的过度依赖,从而削弱了模型通过基本推理解决简单问题的能力。

然而,人类专家在解决问题时,会首先使用领域知识评估问题的复杂性,然后选择适当的解决方案。受这一过程的启发,研究人员提出了一种新颖的两组件微调方法。

在第一个组件“世界知识蒸馏(WKD)”中,LLM直接从使用工具信息生成的解决方案中学习,以内部化领域知识。这一步骤旨在使模型能够理解和应用特定领域的知识,从而提高其在解决相关问题时的性能。

在第二个组件“工具使用适应(TUA)”中,研究人员根据模型直接回答的准确性,将问题分为简单和困难两类。对于简单问题,他们保持与WKD相同的对齐目标,以确保模型能够通过基本推理解决问题。然而,对于更困难的问题,他们训练模型智能地切换到工具使用,以更准确地解决问题。

为了验证这种方法的有效性,研究人员在六个科学基准数据集上进行了实验,涵盖了数学、气候科学和流行病学等领域。实验结果表明,与最先进的模型(包括GPT-4o和Claude-3.5)相比,他们的模型在平均答案准确性方面提高了28.18%,在工具使用精度方面提高了13.89%。

这一研究的突破在于,它不仅提高了LLM在解决复杂科学问题上的性能,还保持了模型在解决简单问题上的基本推理能力。通过智能地适应工具使用,模型能够根据问题的复杂性选择最合适的解决方案,从而提高了整体的准确性和可靠性。

然而,这种方法也存在一些潜在的挑战和限制。首先,将问题分为简单和困难两类可能并不总是准确或可行,因为问题的复杂性可能因人而异,或因领域而异。其次,过度依赖工具可能会导致模型在没有工具可用的情况下无法解决问题。因此,在实际应用中,需要权衡工具使用和基本推理能力之间的关系。

论文地址:https://arxiv.org/abs/2411.00412

目录
相关文章
|
9月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
11月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
466 17
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
611 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
|
存储 算法 数据建模
Python 金融编程第二版(GPT 重译)(一)(5)
Python 金融编程第二版(GPT 重译)(一)
197 0
|
存储 NoSQL 索引
Python 金融编程第二版(GPT 重译)(一)(4)
Python 金融编程第二版(GPT 重译)(一)
305 2
|
安全 Shell 网络安全
Python 金融编程第二版(GPT 重译)(一)(3)
Python 金融编程第二版(GPT 重译)(一)
209 0