LLM用于科学假设生成:探索与挑战

简介: 产生新颖的科学假设和科研方向,是科学发现的重要前提;大语言模型生成科学假设已有不少探索,但仍面临诸多挑战

科学假设包含待验证的预测、解释和见解,是科学发现的关键前期步骤。围绕如何产生新的科学假设,美国斯坦福大学曾经提出Bit-Flip方法[1]:即首先识别出研究领域中现有方法普遍含有的假设(这是Bit部分),然后提出与该假设不同的新的思路(这是Flip部分)。以下是Bit-Flip方法的一个示例:

  • Bit部分:早期的机器翻译将待翻译的整个语句映射到一个向量上;
  • Flip部分:针对待翻译语句(特别是长语句)中的不同部分和不同信息,分别进行编解码,以提高翻译质量。

Bit-Flip方法的更多示例可以参考有关文档[1]。

Bit-Flip方法+LLM

大语言模型(LLM)能够针对文献进行理解,也能够生成新的文字内容。将LLM与上述的Bit-Flip方法相结合,来生成新的科学假设,应该是个不错的想法。近期发布的一篇论文[2]就围绕这一思路,介绍了作者们所进行的探索。

Title_1.jpg

这篇论文提出了一个名为HypoGen的数据集,其中包含了从大量学术论文中提取的Bit、Flip、以及其它数据项;经过HypoGen数据集微调后的LLM,在推理时可以根据输入的Bit信息,生成新颖的见解、以及思考过程的描述。具体而言:

  • 作者们根据计算机科学领域的大量会议论文,使用OpenAI的o1模型,提取出5000多组Bit、Flip、Spark、以及Chain-of-Reasoning信息,形成HypoGen数据集,其中,Bit和Flip信息的定义如上文所述,Spark信息包含的是一篇论文核心见解的摘要,Chain-of-Reasoning信息包含的是根据一篇论文的全文生成的、从Bit到Flip思考过程的描述;
  • HypoGen数据集可以在Hugging Face上获取[3];
  • 经过HypoGen数据集微调后的LLaMA模型,在推理时可以根据输入的Bit信息,生成Spark和Chain-of-Reasoning信息。

Figure_1.jpg

上述论文[2]在评估生成结果时采用了三类方法:

  • 自动指标‌评估‌:采用困惑度(Perplexity,衡量生成结果的流畅性和连贯性)、IAScore(衡量生成结果与相应论文作者提出的研究想法之间的对齐程度)、以及想法独特性指数(Idea Distinctiveness Index,衡量生成的多个想法之间的语义多样性)进行评估;
  • LLM评估‌:使用Anthropic的Claude 3.7 Sonnet-Thinking模型来评估生成结果的新颖性与可行性,并进一步汇总成生成结果的总体评估;
  • 人工评估‌:人工验证LLM评估。

在对测试数据集的测试中,以上三类评估显示:

  • 自动指标‌评估方面:相对于微调前的模型,经过HypoGen数据集微调后的LLaMA模型所生成的结果与相应论文作者提出的研究想法对齐得更好,但在想法独特性指数上有所下降,揭示出模型的对齐性与想法的语义多样性之间可能存在负相关的关系;
  • LLM评估方面:经过HypoGen数据集微调后的LLaMA模型所生成的结果在总体上优于1-Shot方法,但生成结果的新颖性与可行性之间显示出负相关的关系;
  • 人工评估方面:小规模的人工评估与LLM评估在结果上基本一致,进一步证实了经过Bit、Flip、Spark、以及Chain-of-Reasoning数据微调后的模型在结果生成质量上的提升。

展望

LLM用于科学假设的生成,其实已经积累了不少研究[4]。然而该领域仍处于早期,诸多问题,包括生成结果的事实准确性‌、生成结果的评估方法、生成过程的透明性、跨学科的泛化能力等等,有待更多的探索。

参考文献

[1] https://web.stanford.edu/class/cs197c/slides/02-literature-search.pdf

[2] Sparks of Science: Hypothesis Generation Using Structured Paper Data

https://arxiv.org/abs/2504.12976

使用许可协议:CC BY.

https://creativecommons.org/licenses/by/4.0/

[3] https://huggingface.co/datasets/UniverseTBD/hypogen-dr1

[4] A Survey on Hypothesis Generation for Scientific Discovery in the Era of Large Language Models

https://arxiv.org/abs/2504.05496

使用许可协议:CC BY.

https://creativecommons.org/licenses/by/4.0/


封面图:Kindel Media、pexels.com

目录
相关文章
|
12月前
|
存储 人工智能 API
AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署
AgentScope是阿里巴巴集团开源的多智能体开发平台,旨在帮助开发者轻松构建和部署多智能体应用。该平台提供分布式支持,内置多种模型API和本地模型部署选项,支持多模态数据处理。
6054 77
AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署
|
Windows
Windows环境CMake安装教程
Windows环境CMake安装教程
1673 0
Windows环境CMake安装教程
|
8月前
|
分布式计算 运维 搜索推荐
立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务
蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。
415 57
|
7月前
|
运维 分布式计算 Kubernetes
【能力比对】K8S数据平台VS数据平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【能力比对】K8S数据平台VS数据平台
|
7月前
|
分布式计算 Hadoop 数据挖掘
“Hadoop整不明白,数据分析就白搭?”——教你用Hadoop撸清大数据处理那点事
“Hadoop整不明白,数据分析就白搭?”——教你用Hadoop撸清大数据处理那点事
323 34
|
8月前
|
存储 分布式计算 OLAP
百观科技基于阿里云 EMR 的数据湖实践分享
百观科技为应对海量复杂数据处理的算力与成本挑战,基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度,实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度(资源利用率提升至70%)及倚天 ARM 机型搭配 EMR Trino 方案,兼顾性能与成本,支撑数据分析需求,降低算力成本。
532 59
|
9月前
|
人工智能 算法 调度
实时云渲染助力全息影像突破终端算力瓶颈
全息技术、体积视频与高斯溅射是三维动态内容实时生成与传输的关键技术,但硬件成本、数据量大及多终端适配等问题制约其发展。实时云渲染成为关键解决方案,通过云端GPU资源池化与弹性调度,大幅降低算力门槛。LarkXR平台整合动态捕捉与AI算法,实现毫米级精度的三维重建,并优化传输架构,解决弱网环境下的延迟与带宽问题。在体育赛事、虚拟时尚及全息演唱会等领域,LarkXR助力开发者打造沉浸式体验,如NBA全息战术、巴黎高定秀场和虚拟偶像演唱会,推动全息技术从专业领域走向大众消费场景,开创全新商业价值。
|
Ubuntu Linux Python
如何利用wsl-Ubuntu里conda用来给Windows的PyCharm开发
如何在WSL(Windows Subsystem for Linux)的Ubuntu环境中使用conda虚拟环境来为Windows上的PyCharm开发设置Python解释器。
1631 1
|
安全 API 开发工具
Android平台RTMP推送|轻量级RTSP服务如何实现麦克风|扬声器声音采集切换
Android平台扬声器播放声音的采集,在无纸化同屏等场景下,意义很大,早期低版本的Android设备,是没法直接采集扬声器audio的(从Android 10开始支持),所以,如果需要采集扬声器audio,需要先做系统版本判断,添加相应的权限。
344 0
|
消息中间件 Java Kafka
kafka 磁盘扩容与数据均衡操作代码
Kafka 的磁盘扩容和数据均衡是与保证Kafka集群可用性和性能相关的两个重要方面。在 Kafka 中,分区数据的存储和平衡对集群的运行至关重要。以下是有关Kafka磁盘扩容和数据均衡的一些建议
242 1