召唤100多位学者打分，斯坦福新研究：AI科学家创新确实强-阿里云开发者社区

召唤100多位学者打分，斯坦福新研究：AI科学家创新确实强

2024-10-15 76 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_高级版，每接口累计50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_基础版，每接口每天50万次

简介： 【10月更文挑战第6天】斯坦福大学最新研究评估了大型语言模型（LLMs）在生成新颖研究想法方面的能力，通过100多位NLP专家盲评LLMs与人类研究人员提出的想法。结果显示，LLMs在新颖性方面超越人类（p < 0.05），但在可行性上略逊一筹。研究揭示了LLMs作为科研工具的潜力与挑战，并提出了进一步验证其实际效果的设计。论文详见：https://arxiv.org/abs/2409.04109。

最近，斯坦福大学的一项新研究引起了广泛关注。该研究旨在评估大型语言模型（LLMs）在生成新颖研究想法方面的能力。研究团队招募了100多名自然语言处理（NLP）领域的专家，对LLMs和人类研究人员生成的研究想法进行了评估。

这项研究的背景是，近年来LLMs的发展引发了关于它们在加速科学发现方面的潜力的讨论。一些研究提出了自主生成和验证新想法的研究代理，但尚未有评估表明LLM系统能够产生专家级的新想法，更不用说完成整个研究过程了。

为了解决这个问题，研究团队设计了一个实验，旨在评估研究想法的生成，同时控制混淆因素，并首次进行了专家NLP研究人员和LLM创意代理之间的直接比较。他们招募了100多名NLP研究人员，让他们撰写新颖的想法，并对LLM和人类的想法进行盲评。

研究结果显示，LLM生成的想法在新颖性方面被认为比人类专家的想法更具新颖性（p < 0.05），但在可行性方面被认为稍弱。对代理基线的仔细研究揭示了构建和评估研究代理时存在的开放性问题，包括LLM自我评估的失败以及生成的多样性不足。

然而，研究团队也承认，即使是专家，对新颖性的人类判断也可能很困难。因此，他们提出了一个端到端的研究设计，招募研究人员将这些想法转化为完整的项目，以研究这些新颖性和可行性判断是否会导致研究结果产生有意义的差异。

这项研究的结果表明，LLMs在生成新颖研究想法方面具有潜力，但仍然存在一些挑战，如可行性和多样性。然而，通过进一步的研究和改进，LLMs可能在未来成为科学研究的有用工具。

尽管这项研究取得了积极的成果，但也有一些值得注意的局限性。首先，研究只关注了NLP领域，因此结果可能不适用于其他领域。其次，研究只评估了想法的新颖性和可行性，而没有考虑其他因素，如实际应用或科学价值。最后，研究依赖于人类专家的判断，这可能受到主观偏见的影响。

论文地址：https://arxiv.org/abs/2409.04109