近年来,检索增强生成(RAG)系统因其在利用外部知识方面的潜力而备受关注。然而,对RAG系统进行全面评估仍然具有挑战性,因为RAG系统具有模块化特性,需要评估长文本响应,并且测量的可靠性也是一个问题。为了解决这些挑战,来自亚马逊AWS AI和上海交通大学的研究团队提出了一种名为RagChecker的细粒度评估框架。
RagChecker旨在为RAG系统的检索和生成模块提供一套诊断指标。该框架基于主张级别的蕴涵检查,涉及从响应和真实答案中提取主张,并将其与其他文本进行比较。这种细粒度的方法使得可以对RAG系统进行更全面的评估,而不仅仅是基于响应级别的评估。
RagChecker的指标包括整体指标、诊断检索器指标和诊断生成器指标。整体指标提供了系统性能的全面视图,评估了生成的响应的整体质量。诊断检索器指标评估了检索器的有效性,并确定了其在从知识库中查找相关信息方面的优势和劣势。诊断生成器指标评估了生成器的性能,并诊断了生成器在利用检索到的上下文、处理噪声信息以及生成准确和忠实的响应方面的能力。
为了验证RagChecker的有效性,研究人员进行了元评估,并发现RagChecker与其他评估指标相比,与人类判断的相关性显著更好。他们还使用RagChecker评估了8个RAG系统,并进行了深入分析,揭示了RAG架构设计选择中的有见地的模式和权衡。
RagChecker的提出为RAG系统的评估提供了一种有前途的方法。然而,它也存在一些限制。首先,RagChecker的主张级别的蕴涵检查可能需要大量的计算资源和时间。其次,RagChecker的指标可能无法完全捕捉到RAG系统的所有方面,例如系统的可解释性和鲁棒性。