AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率

简介: 【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。

在人工智能领域,科学家们一直致力于开发能够辅助用户完成各种重要任务的AI代理,包括进行科学研究。然而,要推动这些AI代理的发展,我们需要具有挑战性的基准,这些基准不仅要与实际任务相关,还要能够直接反映现实世界中的任务。

最近,普林斯顿大学的研究人员提出了一个名为CORE-Bench(Computational Reproducibility Agent Benchmark)的基准,旨在衡量AI代理在科学研究领域中的准确性。这个基准主要关注于科学研究中的一个关键且具有挑战性的方面:计算可重复性。

计算可重复性是指使用作者提供的代码和数据来重现科学研究成果的能力。它是科学过程的基础,对于确保研究的可靠性和透明度至关重要。然而,最近的研究表明,在包括心理学、经济学、医学和计算机科学在内的各个领域中,计算可重复性都存在严重的问题。

许多研究论文提供了代码和数据,但这些代码和数据可能无法在其他环境中重现,或者可能存在其他问题,导致结果无法重现。这可能是由于软件库的版本未指定、研究人员使用不同的机器架构或操作系统、旧的库与新硬件不兼容,或者研究结果本身存在固有的变异性。

为了解决这个问题,普林斯顿大学的研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准。这个基准由270个任务组成,涵盖了90篇科学论文,涉及计算机科学、社会科学和医学三个领域。

每个任务都要求AI代理根据给定的代码和数据重现研究结果,并回答与这些结果相关的问题。这些问题可能涉及提取信息、与终端交互、检索和使用工具等技能。

CORE-Bench具有以下几个特点:

  1. 多样性:它涵盖了三个不同的领域,包括计算机科学、社会科学和医学,每个领域都有不同的挑战和要求。
  2. 难度级别:它包括三个不同的难度级别,从简单到困难,以评估AI代理在不同情况下的能力。
  3. 现实相关性:它基于实际的科学论文和代码库,因此与现实世界中的任务非常相关。
  4. 可扩展性:它基于公共代码库,因此可以定期更新,以反映最新的研究和技术发展。

研究人员使用CORE-Bench评估了两个基准AI代理:通用的AutoGPT和专门为计算可重复性任务设计的CORE-Agent。他们使用两个不同的语言模型(GPT-4o和GPT-4o-mini)作为这些代理的基础。

评估结果显示,即使是最好的代理,在最困难的任务上也只能达到21%的准确率。这表明在自动化计算可重复性方面,仍然存在很大的改进空间。

CORE-Bench的提出为AI代理在科学研究领域的发展提供了一个重要的基准。它具有现实相关性、多样性和难度级别等特点,可以帮助研究人员评估和改进他们的代理。

然而,CORE-Bench也存在一些局限性。首先,它只涵盖了三个领域,而科学研究领域要广泛得多。其次,它的任务可能无法完全代表现实世界中的所有情况和挑战。

尽管如此,CORE-Bench仍然是一个重要的工具,可以帮助推动AI代理在科学研究领域的发展,并提高计算可重复性的水平。通过使用这个基准,研究人员可以更好地理解他们的代理的能力和局限性,并找到改进的方法。

论文链接:https://arxiv.org/pdf/2409.11363v1

目录
相关文章
|
11天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
3183 116
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
6天前
|
人工智能 Linux iOS开发
exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。
219 100
|
12天前
|
人工智能 物联网 开发者
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。
182 43
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
|
7天前
|
机器学习/深度学习 人工智能 编解码
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。
113 17
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格
YuE 是香港科技大学和 M-A-P 联合开发的开源 AI 音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和多语言。
178 23
YuE:开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种语言和多种音乐风格
|
14天前
|
人工智能 编解码 语音技术
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
194 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
|
4天前
|
人工智能 Linux 开发工具
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。
323 7
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
|
14天前
|
机器学习/深度学习 人工智能 API
Aligner:自动修正AI的生成结果,北大推出残差修正模型对齐技术
介绍北大团队提出的 Aligner 模型对齐技术,通过学习对齐答案与未对齐答案之间的修正残差,提升大语言模型的性能。
76 28
|
1月前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
199 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
1月前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
216 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用