AI 加速科学发现丨Al For Science 专场直播-阿里云开发者社区

AI 加速科学发现丨Al For Science 专场直播

2025-07-17 271

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AI 科学家时代正加速到来，但科研智能体真的做好准备了吗？真实科研场景中，多模态智能体能否在推理、规划与执行等关键能力上达到人类科研人员的水平？我们又该如何准确评估它们的科学认知能力和数据分析表现？

AI 科学家时代正加速到来，但科研智能体真的做好准备了吗？真实科研场景中，多模态智能体能否在推理、规划与执行等关键能力上达到人类科研人员的水平？我们又该如何准确评估它们的科学认知能力和数据分析表现？

为了解开这些谜题，由 OpenMMLab、司南评测体系、Hugging Face、ModelScope、知乎、MLNLP、北京超算、机智流、GDG 等社区联合发起的 AI Insight Talk 特别策划了本周四 19:30——21:30 的 AI for Science（AI4S）专场直播活动！

我们特别邀请到来自香港大学、四川大学、浙江大学的三位论文作者，带来 ScienceBoard、Scientists' First Exam 和 AutoMind 三个前沿科研项目的最新进展。

分享嘉宾及主题介绍

No.1

ScienceBoard: 从数字智能体到 AI 科学家

编辑

孙秋实

香港大学博士生，硕士毕业于新加坡国立大学数据科学系。研究方向涵盖 Computer-using Agents 与Code Intelligence，在 ACL、EMNLP、ICLR、COLM 等自然语言处理与机器学习顶级会议发表多篇论文，谷歌学术引用超过 1000 次，担任多个国际会议与期刊的审稿人及程序委员会委员。其关于计算机智能体的系列研究成果被广泛应用于学术研究与工业界实践中。个人主页：https://qiushisun.github.io/

简要概述

ScienceBoard 是一个用于评估多模态智能体在科学探索任务表现的框架，包含两个核心贡献：真实的可交互环境以及在此基础上构建的评测基准。该环境基于虚拟机，集成了多领域的专业科学软件，支持通过 GUI 和 CLI 进行复杂科研流程的自动化操作。评测基准在此环境中设计了 169 个覆盖生物化学、代数、天文学等六大领域的高质量任务，系统性地测试了智能体在真实科研场景下的推理、规划和执行能力。实验结果表明，即使是最先进模型驱动的智能体，其平均成功率依然远低于人类水平，进一步揭示了当前智能体在科学自动化中的局限，并为未来的科学智能体设计提供了关键启示。

论文地址

No.2

SFE：系统评估 MLLMs 多学科、高难度场景下科学认知能力

编辑

周宇浩

现为四川大学三年级博士生，本科毕业于四川大学计算科学专业，同时在上海人工智能实验室 AI4S 部门进行学术研究，目前主要研究方向为多模态大语言模型的训练和评测。

简要概述

Scientists’ First Exam（SFE）旨在系统评估多模态大模型（MLLMs）在多学科科学领域的能力。SFE 创新性地以“信号感知-属性理解-对比推理”三级体系，涵盖五大领域、66 项任务，采用原始科学数据与中英双语问答。测试发现，主流模型在 SFE 高阶科学任务中表现有限（SOTA 得分仅约 30），凸显了其在科学认知和多模态数据分析方面的不足，为科学 AI 发展指明了突破方向。

论文地址

No.3

AutoMind: 知识增强智能体解锁数据科学潜力

编辑

欧翌昕

浙江大学知识引擎实验室三年级硕士生，由陈华钧教授和张宁豫教授指导，此前在浙江大学计算机科学与技术学院获得学士学位。当前研究方向涵盖大模型智能体、大模型可解释性等，在 ACL、NAACL、TASLP 等国际顶级会议和期刊上发表多篇相关研究成果，谷歌学术引用超过 800 次，担任多个国际会议的审稿人。个人主页：https://oe-heart.github.io/

简要概述

大模型驱动的数据科学智能体有望自动化整个机器学习流程，但其在实际应用中的效果仍然有限。现有的框架依赖于僵化的预定义工作流和不灵活的编码策略，因此仅在相对简单的经典问题上表现出色，未能充分捕捉人类专家在复杂创新任务中的经验。本研究提出了 AutoMind，一个自适应、知识丰富的大模型智能体框架，通过三项关键创新克服了这些不足：（1）一个精心策划的专家知识库，将智能体与领域专家的知识相结合；（2）一种智能体知识树搜索算法，策略性地探索可能的解决方案；（3）一种自适应编码策略，动态调整代码生成策略以适应不同任务的复杂性。评估结果表明，AutoMind 在性能上超越了先前 SOTA，更细致的分析确认了其在质量和效率方面的优势，突显了 AutoMind 在迈向完全自动化数据科学中的高效性和稳健性。

论文地址

参与方式

观看直播

参与讨论

同时为了方便大家交流沟通，我们建立了相关的交流群，本期分享的大佬也在群里哦，可与大佬进行面对面沟通，扫码即可入群~