AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率

简介: 【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。

在人工智能领域,科学家们一直致力于开发能够辅助用户完成各种重要任务的AI代理,包括进行科学研究。然而,要推动这些AI代理的发展,我们需要具有挑战性的基准,这些基准不仅要与实际任务相关,还要能够直接反映现实世界中的任务。

最近,普林斯顿大学的研究人员提出了一个名为CORE-Bench(Computational Reproducibility Agent Benchmark)的基准,旨在衡量AI代理在科学研究领域中的准确性。这个基准主要关注于科学研究中的一个关键且具有挑战性的方面:计算可重复性。

计算可重复性是指使用作者提供的代码和数据来重现科学研究成果的能力。它是科学过程的基础,对于确保研究的可靠性和透明度至关重要。然而,最近的研究表明,在包括心理学、经济学、医学和计算机科学在内的各个领域中,计算可重复性都存在严重的问题。

许多研究论文提供了代码和数据,但这些代码和数据可能无法在其他环境中重现,或者可能存在其他问题,导致结果无法重现。这可能是由于软件库的版本未指定、研究人员使用不同的机器架构或操作系统、旧的库与新硬件不兼容,或者研究结果本身存在固有的变异性。

为了解决这个问题,普林斯顿大学的研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准。这个基准由270个任务组成,涵盖了90篇科学论文,涉及计算机科学、社会科学和医学三个领域。

每个任务都要求AI代理根据给定的代码和数据重现研究结果,并回答与这些结果相关的问题。这些问题可能涉及提取信息、与终端交互、检索和使用工具等技能。

CORE-Bench具有以下几个特点:

  1. 多样性:它涵盖了三个不同的领域,包括计算机科学、社会科学和医学,每个领域都有不同的挑战和要求。
  2. 难度级别:它包括三个不同的难度级别,从简单到困难,以评估AI代理在不同情况下的能力。
  3. 现实相关性:它基于实际的科学论文和代码库,因此与现实世界中的任务非常相关。
  4. 可扩展性:它基于公共代码库,因此可以定期更新,以反映最新的研究和技术发展。

研究人员使用CORE-Bench评估了两个基准AI代理:通用的AutoGPT和专门为计算可重复性任务设计的CORE-Agent。他们使用两个不同的语言模型(GPT-4o和GPT-4o-mini)作为这些代理的基础。

评估结果显示,即使是最好的代理,在最困难的任务上也只能达到21%的准确率。这表明在自动化计算可重复性方面,仍然存在很大的改进空间。

CORE-Bench的提出为AI代理在科学研究领域的发展提供了一个重要的基准。它具有现实相关性、多样性和难度级别等特点,可以帮助研究人员评估和改进他们的代理。

然而,CORE-Bench也存在一些局限性。首先,它只涵盖了三个领域,而科学研究领域要广泛得多。其次,它的任务可能无法完全代表现实世界中的所有情况和挑战。

尽管如此,CORE-Bench仍然是一个重要的工具,可以帮助推动AI代理在科学研究领域的发展,并提高计算可重复性的水平。通过使用这个基准,研究人员可以更好地理解他们的代理的能力和局限性,并找到改进的方法。

论文链接:https://arxiv.org/pdf/2409.11363v1

目录
相关文章
|
3月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
2003 120
|
4月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
970 109
|
5月前
|
人工智能 自然语言处理 搜索推荐
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
|
3月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
377 120
|
5月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
406 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
5月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
724 6
|
5月前
|
存储 人工智能 算法
AI测试平台实战:深入解析自动化评分和多模型对比评测
在AI技术迅猛发展的今天,测试工程师面临着如何高效评估大模型性能的全新挑战。本文将深入探讨AI测试平台中自动化评分与多模型对比评测的关键技术与实践方法,为测试工程师提供可落地的解决方案。

热门文章

最新文章