在人工智能领域,大型语言模型(LLMs)的兴起带来了前所未有的变革。它们在多种任务中展现出了惊人的能力,从文本生成到问题解答,似乎无所不能。然而,这些模型在处理事实性问题时,却常常暴露出可靠性不足的弱点。为了解决这一问题,DeepMind的研究者们提出了一种全新的方法——Search-Augmented Factuality Evaluator(SAFE),旨在提高模型在长文本中事实性评估的准确性和效率。
传统的模型评估方法依赖于人工标注,这种方法不仅成本高昂,而且效率低下。与之相比,SAFE通过自动化的方式,利用大型语言模型来分解长文本中的信息,并对每个独立事实进行评估。这一过程通过向谷歌搜索发送查询,来验证事实的准确性。通过这种方法,SAFE不仅在准确性上超越了人类标注者,而且在成本上也大幅降低,仅为人工标注的二十分之一。
在实验中,研究者们使用了GPT-4模型来生成一个包含数千个问题的长文本提示集LongFact,这些问题覆盖了38个不同的主题。随后,他们利用SAFE对这些提示集进行了评估,并与其他评估方法进行了比较。结果表明,SAFE在72%的情况下与人类标注者达成一致,并且在100个存在分歧的案例中,SAFE正确的概率高达76%。这一结果不仅证明了SAFE在事实性评估上的有效性,也展示了其在大规模应用中的潜力。
然而,SAFE并非没有局限性。首先,它依赖于谷歌搜索作为信息来源,这意味着对于一些特定的、难以搜索到的信息,SAFE可能无法做出准确判断。其次,SAFE在处理长文本时可能会遇到信息过载的问题,导致评估结果出现偏差。此外,尽管SAFE在成本上具有优势,但其对计算资源的需求仍然较高,这可能会限制其在资源受限的环境中的应用。