最近,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。这篇论文由Meta和浙江大学的校友合作完成,提出了一种全新的模型评估方法。该方法的核心思想是让评估模型通过自学的方式进行训练,而无需依赖人工标注的数据。
在传统的模型评估中,通常需要收集大量的人工偏好判断数据,用于训练评估模型。然而,这种方式不仅成本高昂,而且随着模型的不断改进,数据也会逐渐过时。为了解决这个问题,研究人员提出了一种基于自我迭代改进的方案,利用合成数据来训练评估模型。
具体来说,该方案从无标签的指令开始,通过迭代生成对比模型输出,并训练一个基于大型语言模型(LLM)的评估器,以生成推理轨迹和最终判断。然后,在每个新的迭代中,使用改进的预测结果重复这个训练过程。通过这种方式,研究人员成功地在没有任何标注偏好数据的情况下,将一个强大的大型语言模型(如Llama3-70B-Instruct)在RewardBench上的准确率从75.4%提高到了88.3%(使用多数票时为88.7%),超过了常见的基于大型语言模型的评估器(如GPT-4)的性能,并匹配了使用标注示例训练的最佳奖励模型的性能。
这一成果的意义在于,它为模型评估提供了一种全新的思路,即通过自我学习的方式来提高评估模型的性能。这不仅可以降低训练评估模型的成本,还可以使评估模型能够更好地适应模型的不断改进。
然而,这一方法也存在一些潜在的问题。首先,由于该方法完全依赖于合成数据,因此可能无法完全捕捉到真实世界中的复杂情况。其次,由于评估模型的训练过程是自我迭代的,因此可能存在过拟合的风险。此外,由于该方法尚未在实际应用中得到广泛的验证,因此其实际效果仍有待进一步的研究和探索。