近日,斯坦福大学的杨笛一团队在arXiv上发布了一篇长达百页的论文,题为《Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers》。这篇论文首次通过统计学方法证明了,大型语言模型(LLMs)在生成研究想法方面,其新颖性优于人类专家。
随着大型语言模型(LLMs)的快速发展,人们开始期待它们在科学发现领域的潜力。许多研究提出了自主生成和验证新想法的研究代理,但目前还没有评估表明LLM系统能够产生专家级的新想法,更不用说完成整个研究过程了。
为了解决这个问题,杨笛一团队设计了一个实验,对研究想法的生成能力进行评估,并进行了第一次人类专家和LLM想法生成代理的直接比较。他们招募了100多名NLP研究人员,让他们撰写新想法,并对LLM和人类的想法进行盲评。
研究结果显示,LLM生成的想法在新颖性方面被评价为显著优于人类专家的想法(p<0.05),而在可行性方面则被评价为稍弱。这表明LLM在生成新颖想法方面具有优势,但在可行性方面仍需改进。
在对结果进行深入分析时,研究团队发现了一些有趣的现象。首先,他们发现人类专家可能没有提交他们最好的想法,这可能是因为他们在短时间内提出了这些想法。其次,他们发现评审员在评估想法时,更注重新颖性和兴奋性,而对可行性的关注较少。最后,他们发现评审过程本身是主观的,不同评审员可能有不同的偏好和标准。
尽管LLM在生成新颖想法方面具有优势,但研究团队也发现了一些局限性。首先,LLM在生成大量想法时缺乏多样性,这可能导致它们在扩展生成时产生重复的想法。其次,LLM目前还不能可靠地评估想法,这限制了它们在研究过程中的适用性。