清华UCSD提出全新微调方法,8B小模型媲美GPT-4o!科学问题正确率提高28%

简介: 清华大学与UCSD研究人员提出了一种创新微调方法,通过“世界知识蒸馏”和“工具使用适应”两组件,显著提升大型语言模型(LLM)解决科学问题的能力,同时保持其基本推理能力。实验结果显示,该方法在多个科学领域基准数据集上大幅提高了答案准确性和工具使用精度。论文地址:https://arxiv.org/abs/2411.00412

清华大学与加州大学圣地亚哥分校(UCSD)的研究人员最近提出了一种创新的微调方法,该方法通过智能工具使用适应,显著提高了大型语言模型(LLM)在解决科学问题时的性能。这种方法不仅在解决复杂科学问题上取得了显著进展,还保持了模型在解决简单问题上的基本推理能力。

传统的方法中,LLM在解决科学问题时,尤其是复杂问题,往往会出现“幻觉”现象,即生成不准确或不相关的答案。虽然将LLM与工具集成可以提高可靠性,但这种方法通常会导致对工具的过度依赖,从而削弱了模型通过基本推理解决简单问题的能力。

然而,人类专家在解决问题时,会首先使用领域知识评估问题的复杂性,然后选择适当的解决方案。受这一过程的启发,研究人员提出了一种新颖的两组件微调方法。

在第一个组件“世界知识蒸馏(WKD)”中,LLM直接从使用工具信息生成的解决方案中学习,以内部化领域知识。这一步骤旨在使模型能够理解和应用特定领域的知识,从而提高其在解决相关问题时的性能。

在第二个组件“工具使用适应(TUA)”中,研究人员根据模型直接回答的准确性,将问题分为简单和困难两类。对于简单问题,他们保持与WKD相同的对齐目标,以确保模型能够通过基本推理解决问题。然而,对于更困难的问题,他们训练模型智能地切换到工具使用,以更准确地解决问题。

为了验证这种方法的有效性,研究人员在六个科学基准数据集上进行了实验,涵盖了数学、气候科学和流行病学等领域。实验结果表明,与最先进的模型(包括GPT-4o和Claude-3.5)相比,他们的模型在平均答案准确性方面提高了28.18%,在工具使用精度方面提高了13.89%。

这一研究的突破在于,它不仅提高了LLM在解决复杂科学问题上的性能,还保持了模型在解决简单问题上的基本推理能力。通过智能地适应工具使用,模型能够根据问题的复杂性选择最合适的解决方案,从而提高了整体的准确性和可靠性。

然而,这种方法也存在一些潜在的挑战和限制。首先,将问题分为简单和困难两类可能并不总是准确或可行,因为问题的复杂性可能因人而异,或因领域而异。其次,过度依赖工具可能会导致模型在没有工具可用的情况下无法解决问题。因此,在实际应用中,需要权衡工具使用和基本推理能力之间的关系。

论文地址:https://arxiv.org/abs/2411.00412

目录
相关文章
|
5天前
|
机器学习/深度学习 人工智能 编解码
OpenAI 最新多模态图像生成模型 GPT-image-1:一句话生成商业图+智能修图
GPT-image-1是OpenAI推出的新一代多模态图像生成模型,通过API提供专业级图像生成与编辑能力,支持多种分辨率、格式和艺术风格定制。
67 10
OpenAI 最新多模态图像生成模型 GPT-image-1:一句话生成商业图+智能修图
|
20天前
|
人工智能 自然语言处理 测试技术
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
亚马逊推出的Nova Sonic是一款整合语音理解与生成能力的AI模型,支持多语言交互,在LibriSpeech基准测试中平均单词错误率低至4.2%,具备实时双向流式传输能力。
82 5
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
|
26天前
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
107 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
|
1月前
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
88 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
|
1月前
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
115 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
|
1月前
|
机器学习/深度学习 人工智能 API
GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役
GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。
103 2
|
9月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
92 3
|
9月前
|
存储 NoSQL 索引
Python 金融编程第二版(GPT 重译)(一)(4)
Python 金融编程第二版(GPT 重译)(一)
95 2
|
9月前
|
存储 机器学习/深度学习 关系型数据库
Python 金融编程第二版(GPT 重译)(四)(5)
Python 金融编程第二版(GPT 重译)(四)
64 2

热门文章

最新文章

下一篇
oss创建bucket