在人工智能领域,大语言模型(LLMs)的快速发展引发了关于其性能评估的广泛关注。然而,随着LLMs的日益复杂化,出现了一些不公平或不可靠的评估方法,如测试集泄露和提示格式过拟合。这些问题使得对LLMs的准确评估变得极具挑战性。
目前,评估框架通常使用正则表达式(RegEx)进行答案抽取。然而,一些模型可能会调整其响应以符合特定的格式,这些格式可以被RegEx轻松抽取。这导致了基于RegEx的关键答案抽取模块经常出现抽取错误。
为了解决这些问题,最近一篇名为《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的论文提出了一种名为xFinder的模型,专门用于关键答案抽取。该模型旨在通过优化关键答案抽取模块来提高抽取准确性,减少LLMs对特定答案格式的依赖,并增强LLMs评估的可靠性。
为了确保有效训练和评估xFinder模型,作者还创建了一个名为关键答案抽取(KAF)数据集的专门数据集。该数据集旨在提供各种真实世界场景中的样本,以帮助模型学习如何准确抽取关键答案。
通过在真实世界场景中进行泛化测试和评估,结果显示,仅具有5000万参数的最小xFinder模型实现了93.42%的平均答案抽取准确性。相比之下,最佳评估框架中的RegEx准确性为74.38%。这表明xFinder在准确性和鲁棒性方面都优于现有评估框架。
然而,尽管xFinder在关键答案抽取方面取得了显著进展,但仍存在一些潜在的局限性。首先,xFinder的训练和评估需要大量的标注数据,这可能限制了其在资源受限情况下的应用。其次,xFinder的性能可能受到数据集的质量和多样性的影响,因此需要持续的维护和更新以保持其准确性。
此外,xFinder目前仅关注关键答案抽取任务,而没有考虑其他与LLMs评估相关的任务,如答案验证和模型可解释性。未来的研究可以探索如何将xFinder扩展到这些其他任务,以提供更全面的LLMs评估解决方案。