最近,DeepMind的研究人员在大型语言模型(LLMs)的不确定性量化方面取得了一项重要突破。这项研究旨在帮助我们确定一个查询的响应中的不确定性何时会很大。它同时考虑了认知不确定性和偶然不确定性,前者源于对基本事实或语言的缺乏了解,而后者则源于不可减少的随机性,例如多个可能的答案。
该研究的新颖之处在于,它提出了一种基于信息理论的度量标准,可以可靠地检测到何时只有认知不确定性很大。在这种情况下,模型的输出是不可靠的。这种条件可以通过仅基于模型输出的某些特殊迭代提示来计算,而这些输出是基于之前的响应得出的。
这种量化方法,例如,可以检测到单个和多个响应中的幻觉(即认知不确定性高的情况)。这与许多标准的不确定性量化策略(如响应的对数似然的阈值)形成鲜明对比,这些策略无法检测到多个响应中的幻觉。
为了证明其方法的优越性,研究团队进行了一系列的实验。他们的研究还揭示了LLM如何通过迭代提示放大给定输出的概率,这可能是一个独立的研究兴趣点。
然而,尽管这项研究具有创新性和潜在的实用性,但也有一些潜在的局限性和争议点需要考虑。
首先,该研究的重点是检测和量化LLM输出中的不确定性,而不是解决这些不确定性的根本原因。虽然能够识别不可靠的输出是朝着正确方向迈出的重要一步,但我们仍然需要找到减少这些不确定性的方法。
其次,该研究依赖于迭代提示和信息理论度量的组合,这可能对某些应用场景或数据集比其他场景更有效。因此,在将其应用于实际问题之前,需要进行更多的研究和实验来验证其鲁棒性和泛化能力。
最后,该研究提出了一些关于LLM如何工作以及它们如何产生幻觉的有趣见解。然而,这些见解可能只是冰山一角,需要更多的研究来充分理解这些复杂模型的内部工作原理。