AI 加速科学发现丨Al For Science 专场直播

简介: AI 科学家时代正加速到来,但科研智能体真的做好准备了吗?真实科研场景中,多模态智能体能否在推理、规划与执行等关键能力上达到人类科研人员的水平?我们又该如何准确评估它们的科学认知能力和数据分析表现?

AI 科学家时代正加速到来,但科研智能体真的做好准备了吗?真实科研场景中,多模态智能体能否在推理、规划与执行等关键能力上达到人类科研人员的水平?我们又该如何准确评估它们的科学认知能力和数据分析表现?

 

为了解开这些谜题,由 OpenMMLab、司南评测体系、Hugging Face、ModelScope、知乎、MLNLP、北京超算、机智流、GDG 等社区联合发起的 AI Insight Talk 特别策划了本周四 19:30——21:30 的 AI for Science(AI4S)专场直播活动

 

我们特别邀请到来自香港大学、四川大学、浙江大学的三位论文作者,带来 ScienceBoard、Scientists' First Exam 和 AutoMind 三个前沿科研项目的最新进展。

 

分享嘉宾及主题介绍

No.1

ScienceBoard: 从数字智能体到 AI 科学家

 

image.gif 编辑

孙秋实

香港大学博士生,硕士毕业于新加坡国立大学数据科学系。研究方向涵盖 Computer-using Agents 与Code Intelligence,在 ACL、EMNLP、ICLR、COLM 等自然语言处理与机器学习顶级会议发表多篇论文,谷歌学术引用超过 1000 次,担任多个国际会议与期刊的审稿人及程序委员会委员。其关于计算机智能体的系列研究成果被广泛应用于学术研究与工业界实践中。个人主页:https://qiushisun.github.io/

 

简要概述

ScienceBoard 是一个用于评估多模态智能体在科学探索任务表现的框架,包含两个核心贡献:真实的可交互环境以及在此基础上构建的评测基准。该环境基于虚拟机,集成了多领域的专业科学软件,支持通过 GUI 和 CLI 进行复杂科研流程的自动化操作。评测基准在此环境中设计了 169 个覆盖生物化学、代数、天文学等六大领域的高质量任务,系统性地测试了智能体在真实科研场景下的推理、规划和执行能力。实验结果表明,即使是最先进模型驱动的智能体,其平均成功率依然远低于人类水平,进一步揭示了当前智能体在科学自动化中的局限,并为未来的科学智能体设计提供了关键启示。

论文地址

No.2

SFE:系统评估 MLLMs 多学科、高难度场景下科学认知能力

 

 

image.gif 编辑

周宇浩

现为四川大学三年级博士生,本科毕业于四川大学计算科学专业,同时在上海人工智能实验室 AI4S 部门进行学术研究,目前主要研究方向为多模态大语言模型的训练和评测。

简要概述

Scientists’ First Exam(SFE)旨在系统评估多模态大模型(MLLMs)在多学科科学领域的能力。SFE 创新性地以“信号感知-属性理解-对比推理”三级体系,涵盖五大领域、66 项任务,采用原始科学数据与中英双语问答。测试发现,主流模型在 SFE 高阶科学任务中表现有限(SOTA 得分仅约 30),凸显了其在科学认知和多模态数据分析方面的不足,为科学 AI 发展指明了突破方向。

 

论文地址

 

No.3

AutoMind: 知识增强智能体解锁数据科学潜力

 

image.gif 编辑

欧翌昕

浙江大学知识引擎实验室三年级硕士生,由陈华钧教授和张宁豫教授指导,此前在浙江大学计算机科学与技术学院获得学士学位。当前研究方向涵盖大模型智能体、大模型可解释性等,在 ACL、NAACL、TASLP 等国际顶级会议和期刊上发表多篇相关研究成果,谷歌学术引用超过 800 次,担任多个国际会议的审稿人。个人主页:https://oe-heart.github.io/

简要概述

大模型驱动的数据科学智能体有望自动化整个机器学习流程,但其在实际应用中的效果仍然有限。现有的框架依赖于僵化的预定义工作流和不灵活的编码策略,因此仅在相对简单的经典问题上表现出色,未能充分捕捉人类专家在复杂创新任务中的经验。本研究提出了 AutoMind,一个自适应、知识丰富的大模型智能体框架,通过三项关键创新克服了这些不足:(1)一个精心策划的专家知识库,将智能体与领域专家的知识相结合;(2)一种智能体知识树搜索算法,策略性地探索可能的解决方案;(3)一种自适应编码策略,动态调整代码生成策略以适应不同任务的复杂性。评估结果表明,AutoMind 在性能上超越了先前 SOTA,更细致的分析确认了其在质量和效率方面的优势,突显了 AutoMind 在迈向完全自动化数据科学中的高效性和稳健性。

 

论文地址

 

参与方式

观看直播

 

参与讨论

同时为了方便大家交流沟通,我们建立了相关的交流群,本期分享的大佬也在群里哦,可与大佬进行面对面沟通 ,扫码即可入群~

 

image.gif 编辑

期待与您相约 7 月 17 日(周四)晚 19:30 的 AI Insight Talk AI4S 专场,一起探索前沿科技,共享 AI 盛宴!

 

image.gif 编辑

 

目录
相关文章
|
11月前
|
人工智能 数据可视化 数据挖掘
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
The AI Scientist-v2 是由 Sakana AI 等机构开发的端到端自主科研系统,通过树搜索算法与视觉语言模型反馈实现科学假设生成、实验执行及论文撰写全流程自动化,其生成论文已通过国际顶会同行评审。
817 34
AI竟能独立完成顶会论文!The AI Scientist-v2:开源端到端AI自主科研系统,自动探索科学假设生成论文
|
6月前
|
存储 人工智能 达摩院
|
9月前
|
机器学习/深度学习 人工智能 API
基于昇腾适配Meta AI在Science正刊发表的蛋白质结构预测模型ESMFold
ESMFold是由Meta AI团队开发的一种基于深度学习的高效蛋白质结构预测模型,其核心目标是利用大规模蛋白质语言模型(ESM)直接从氨基酸序列快速推断蛋白质的三维结构。ESMFold通过预训练的语言模型捕捉序列中的进化与结构关联性,结合几何优化模块生成高精度原子坐标,显著降低了传统方法对多重序列比对(MSA)和模板依赖的计算成本。该模型在蛋白质从头预测(de novo prediction)、功能位点解析、突变效应模拟等领域具有重要价值,以高效的推理性能,推动结构预测技术的普惠化应用。
|
机器学习/深度学习 存储 人工智能
AI与量子计算:推动计算科学的边界
【10月更文挑战第7天】AI与量子计算的融合,标志着计算科学进入了一个全新的时代。在这个时代里,计算能力的边界被不断拓宽,科技创新的速度不断加快。我们有理由相信,在未来的日子里,AI与量子计算将继续携手并进,共同推动计算科学向着更加智能、更加高效的方向发展。让我们期待这一天的到来,共同见证计算科学的无限可能。
|
人工智能 自然语言处理 测试技术
用图灵测试检验AI尤其是大语言模型,真的科学吗?
【9月更文挑战第25天】《Does GPT-4 Pass the Turing Test?》一文评估了先进AI模型GPT-4的图灵测试表现。尽管GPT-4在某些对话中成功迷惑了参与者,但其整体成功率仅为41%,低于人类的63%。图灵测试作为评估AI语言能力的工具依然有效,但存在局限性,如无法评估AI的认知机制且受主观判断影响。此外,测试还引发了关于AI智能及伦理的讨论。
910 6
|
机器学习/深度学习 人工智能 数据可视化
首个全自动科学发现AI系统,Transformer作者创业公司Sakana AI推出AI Scientist
【9月更文挑战第11天】Sakana AI公司近日推出全球首个全自动科学发现AI系统——AI Scientist,实现了人工智能在科学研究领域的重大突破。AI Scientist不仅能独立完成从假设提出到实验设计、数据分析及论文撰写的全过程,还能通过模拟评审提升研究成果的质量。该系统已成功应用于机器学习的多个子领域,并产出达到顶级会议标准的论文。尽管其高效性备受赞誉,但也引发了关于研究可信度和潜在风险的讨论。Sakana AI强调,系统具备可追溯的决策过程与严格的评审机制,确保了研究的可靠性和透明度。论文详情参见:[链接]。
327 6
|
机器学习/深度学习 人工智能
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
近日,斯坦福大学和加州大学伯克利分校在《科学》杂志发表重要成果,发现DNA Scaling Law规律,揭示了DNA、RNA和蛋白质分子长度与碱基对数量之间的比例关系。该研究为AI设计生物分子带来突破,通过数据收集、模型训练和优化设计等步骤,显著提高设计效率和准确性,降低成本,并拓展应用范围。论文地址:https://www.science.org/doi/10.1126/science.ado9336。
334 26
|
人工智能 供应链 新能源
推动AI与基础科学融合,第二届世界科学智能大赛圆满收官
推动AI与基础科学融合,第二届世界科学智能大赛圆满收官
391 5
|
机器学习/深度学习 人工智能
AI模型提早5年预警乳腺癌,MIT研究登Science获LeCun转发
【9月更文挑战第1天】麻省理工学院(MIT)研究人员开发的深度学习AI模型,在乳腺癌早期预警方面取得突破性进展,相比传统方法提前5年预警癌症,准确率超过90%。此成果不仅在医学界引起轰动,还获得了人工智能领域知名学者Yann LeCun的高度评价。尽管面临准确性和可解释性的挑战,但该研究展示了AI在医疗领域的巨大潜力,有望革新乳腺癌的早期筛查和诊断方式。论文详情见[链接]。
282 3
|
人工智能 算法 API
🎯精准狙击!生成式AI大模型入门,提示词打造的艺术与科学🎨🔬
【8月更文挑战第1天】在AI领域中,生成式大模型正成为技术与创意融合的关键。掌握提示词构建艺术,既能激发AI的创造力又能确保其科学性。如为DALL-E设计“梦幻森林”需详细描述来引导AI绘出心灵蓝图。同时,提示词应逻辑清晰、具体明确,如指定未来城市规划的细节。实践中需不断优化,如使用GPT-3 API生成关于AI医疗应用的文章时调整参数以改进结果。最终,将艺术与科学相结合,使AI成为强大创意工具。
331 7

热门文章

最新文章