AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文

简介: The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🔬 "科研民工集体失业?AI系统竟能独立完成顶会论文,评审专家直呼离谱!"

大家好,我是蚝油菜花。当科研人员还在为实验设计和论文修改熬夜爆肝时,这个由 Sakana AI 领衔开发的系统正在颠覆传统科研范式!

你是否经历过这些学术至暗时刻:

  • 📊 实验数据反复异常,三个月心血付之东流
  • 📑 论文评审意见要求补充实验,截稿日期迫在眉睫
  • 🔬 跨学科研究需要同时掌握多个领域知识,分身乏术...

今天要拆解的 The AI Scientist-v2 ,用三大突破重塑科研生产力:

  • 全流程自动化:从假设生成到论文撰写,无需人工干预
  • 树状搜索算法:并行探索多实验路径,效率提升300%
  • 视觉语言双反馈:图表质量与文本逻辑AI自检,成果直投顶会

已有团队用它生成ICLR 2025录用论文,接下来将解密这个「科研终结者」的技术原理与部署方法!

🚀 快速阅读

该系统实现了科学研究全流程的自动化闭环。

  1. 核心功能:自主生成假设、设计实验、分析数据、撰写论文
  2. 技术原理:基于代理的树搜索算法优化探索路径,视觉语言模型提供质量反馈

The AI Scientist-v2 是什么

The AI Scientist-v2

该系统通过整合多模态AI技术,构建了完整的科研自动化工作流。其核心突破在于消除对人类预定义模板的依赖,采用自适应的探索策略完成复杂科研任务。

技术架构采用分阶段管理机制,将科研过程拆解为假设生成、实验设计、数据分析等模块。每个模块通过特定代理实现功能,系统通过树搜索算法动态优化执行路径。

The AI Scientist-v2 的主要功能

  • 假设智能生成:基于现有文献自动推导创新研究方向
  • 实验动态规划:根据实时数据调整实验参数与流程
  • 可视化自检:通过VLM评估图表质量并优化呈现方式
  • 论文结构化输出:自动生成符合学术规范的完整论文

The AI Scientist-v2 的技术原理

  • 树状搜索算法:采用广度优先策略并行探索多实验路径
  • 模块化代理系统:实验管理代理协调各阶段任务执行
  • 代码自愈机制:自动调试执行异常代码并记录错误日志
  • 多源数据处理:集成Hugging Face数据集实现快速加载

如何运行 The AI Scientist-v2

1. 安装

conda create -n ai_scientist python=3.11
conda activate ai_scientist
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
conda install anaconda::poppler # 用于 pdftotext
conda install conda-forge::chktex # 用于写入

pip install -r requirements.txt

2. 支持的模型和 API 密钥

OpenAI 模型

默认情况下,使用 OPENAI_API_KEY 环境变量。

Claude 模型(通过 Bedrock)

对于由 Amazon Bedrock 提供的 Claude 模型,请安装以下额外包:

pip install anthropic[bedrock]

接下来,设置一组有效的 AWS 凭证 和目标 AWS 区域,通过设置环境变量 AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEYAWS_REGION_NAME

Semantic Scholar API(文献搜索)

我们的代码还可以选择使用 Semantic Scholar API 密钥(S2_API_KEY)以提高吞吐量(如果你有密钥的话)。如果没有密钥,也可以运行,但可能会影响性能。如果你在使用 Semantic Scholar 时遇到问题,可以跳过文献搜索和引用阶段。

确保为使用的模型提供密钥,例如:

export OPENAI_API_KEY="你的密钥"
export S2_API_KEY="你的密钥"

3. 运行 AI Scientist-v2 论文生成实验

你可以使用命令行参数指定写入和评审阶段的模型。最佳优先树搜索配置可以在 bfts_config.yaml 文件中找到。根据需要进行修改。

相关的树搜索配置参数包括:

  • agent 配置:

    • 设置 num_workersstepssteps 是要探索的最大节点数。例如,如果你设置 num_workers=3steps=21,树将增长到 21 个节点,每次 3 个节点。其他代理参数如 k_fold_validationexpose_predictiondata_preview 在当前版本中不使用。
    • num_seeds:如果 num_workers < 3,则应与 num_workers 相同。否则,设置为 3。
  • search 配置:

    • max_debug_depth:代理尝试调试节点的次数,直到放弃整个链。
    • debug_prob:调试节点的概率。
    • num_drafts:在阶段 1 开始时的根节点数量(要增长的树的数量)。

以下是一个运行 AI Scientist-v2 的示例命令(请查看 bfts_config.yaml 以获取树搜索参数,包括 claude-3-5-sonnet):

python launch_scientist_bfts.py \
 --load_ideas "ai_scientist/ideas/i_cant_believe_its_not_better.json" \
 --load_code \
 --add_dataset_ref \
 --model_writeup o1-preview-2024-09-12 \
 --model_citation gpt-4o-2024-11-20 \
 --model_review gpt-4o-2024-11-20 \
 --model_agg_plots o3-mini-2025-01-31 \
 --num_cite_rounds 20

阶段 1 完成后,你应该会在 experiments 目录中看到一个带有时间戳的日志文件夹。在该文件夹中,导航到 "timestamp_ideaname"/logs/0-run 以找到 unified_tree_viz.html

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
6月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
6月前
|
人工智能 监控 安全
提效40%?揭秘AI驱动的支付方式“一键接入”系统
本项目构建AI驱动的研发提效系统,通过Qwen Coder与MCP工具链协同,实现跨境支付渠道接入的自动化闭环。采用多智能体协作模式,结合结构化Prompt、任务拆解、流程管控与安全约束,显著提升研发效率与交付质量,探索大模型在复杂业务场景下的高采纳率编码实践。
695 26
提效40%?揭秘AI驱动的支付方式“一键接入”系统
|
6月前
|
人工智能 自然语言处理 前端开发
最佳实践2:用通义灵码以自然语言交互实现 AI 高考志愿填报系统
本项目旨在通过自然语言交互,结合通义千问AI模型,构建一个智能高考志愿填报系统。利用Vue3与Python,实现信息采集、AI推荐、专业详情展示及数据存储功能,支持响应式设计与Supabase数据库集成,助力考生精准择校选专业。(239字)
630 12
|
6月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
6999 90
|
人工智能 自然语言处理 前端开发
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
淘宝推荐信息流业务,常年被“需求多、技术栈杂、协作慢”困扰,需求上线周期动辄一周。WaterFlow——一套 AI 驱动的端到端开发新实践,让部分需求两天内上线,甚至产品经理也能“自产自销”需求。短短数月,已落地 30+ 需求、自动生成 5.4 万行代码,大幅提升研发效率。接下来,我们将揭秘它是如何落地并改变协作模式的。
941 37
产品经理也能“开发”需求?淘宝信息流从需求到上线的AI端到端实践
|
6月前
|
存储 人工智能 搜索推荐
LangGraph 记忆系统实战:反馈循环 + 动态 Prompt 让 AI 持续学习
本文介绍基于LangGraph构建的双层记忆系统,通过短期与长期记忆协同,实现AI代理的持续学习。短期记忆管理会话内上下文,长期记忆跨会话存储用户偏好与决策,结合人机协作反馈循环,动态更新提示词,使代理具备个性化响应与行为进化能力。
1208 10
LangGraph 记忆系统实战:反馈循环 + 动态 Prompt 让 AI 持续学习
|
6月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
610 5
我们开源了一款 AI 驱动的用户社区
|
6月前
|
机器学习/深度学习 人工智能 JSON
PHP从0到1实现 AI 智能体系统并且训练知识库资料
本文详解如何用PHP从0到1构建AI智能体,涵盖提示词设计、记忆管理、知识库集成与反馈优化四大核心训练维度,结合实战案例与系统架构,助你打造懂业务、会进化的专属AI助手。
851 6
|
6月前
|
人工智能 JSON 安全
Claude Code插件系统:重塑AI辅助编程的工作流
Anthropic为Claude Code推出插件系统与市场,支持斜杠命令、子代理、MCP服务器等功能模块,实现工作流自动化与团队协作标准化。开发者可封装常用工具或知识为插件,一键共享复用,构建个性化AI编程环境,推动AI助手从工具迈向生态化平台。
1685 1

热门文章

最新文章