# 模型评估的指标
模型是在大量的数据集上训练而来的,无论一个模型是从零训练的还是基于某一个模型,通过微调方法得到的,靠人工评价模型的效果都是异常困难的。那么要想客观的、自动化的评价一个LLM模型,就需要能够选择正确评估模型效果的指标或者基准测试,来客观和自动化的完成评价,从而正确的反馈模型的效果。
## 常用指标
在测试AI系统中的模型训练和评估阶段,需要使用准备好的数据集对AI模型进行训练和评估。在训练过程中,应该对模型进行监控和调整,以确保模型的准确性和效果。在评估过程中,需要使用测试数据集对模型进行测试,以验证模型的准确性和效果。在评估过程中,需要使用各种度量方法来评估模型的准确性和效果,例如精度、召回率、F1分数等等。
精度是指模型正确预测的样本数占总样本数的比例,即:
其中,Precision是指精度,True Positive指分类器正确判断为正例的样本数,False Positive指分类器错误判断为正例的样本数。精度越高,说明模型的分类效果越好。
召回率是指模型正确预测的正样本数占所有正样本数的比例,即:
其中,Recall是指召回率,False Negative指分类器错误判断为负例的样本数。召回率越高,说明模型对正样本的覆盖率越高。
F1分数是精度和召回率的调和平均值,即:
F1分数综合了精度和召回率的指标,是一个综合性的评价指标。F1分数越高,说明模型的效果越好。
现在仅仅完成了精度、召回率、F1的介绍还是很难理解如何使用这些指标来评估一个 LLM 的模型。在 NLP 的评估中有两个评估指标,一个是 ROUGE 用来评估摘要生产的质量,一个是BlEU SCORE 用评估模型生成翻译的质量。这两个指标就是如上指标的应用,再详细解释使用方法之前先介绍一个定义,英文句子中每一个单词叫做 unigram,连续两个单词称为 bigram,连续三个单词称为 3-gram,后面以此类推,连续 n 个单词称为 n-gram。
假设有一个阅读摘要的任务,人类阅读完成后给出的结果是“the weather is very sunny",模型升成的摘要是”the weather is fine“。我们计算ROUGE-1 的精度、召回率、F1如下:
ROUGE-1 的三个指标表示了是人工给出的摘要和模型升成摘要的单词的不一致,但是有时候往往某一个单词不一样却表达的是不一个意思,那么我们可以使用 bigram 来计算上面的三个指标,首先将人类总结的摘要和模型升成的摘要进行一些处理:
这样就按照 bigram 对原来的句子进行了划分,然后计算ROUGE-2 下的三个指标。
可以看出ROUGE-2 的指标比 ROUGE-1 的指标相对都变小了,那么句子越长,这个变化越大。如果要计算其他ROUGE数,也是一样的做法,通过 n-gram 计算对应的 ROUGE-n 指标。很显然,n-gram 越大,计算结果也越小,为了避免这种无意义计算可以采用最长共有子句(Logest common subsequence,LCS)。
按照 LCS 计算ROUGE-L的指标数值。
虽然多种 ROUGE指标,但是不通 ROUGE 下的指标是没有可比性的。那么如何选择n-gram 的大小是要靠模型的训练团队来通过不断的实验来决定的。
BLEU SCORE 也是如上指标的一个应用,是n-gram计算精度指标的进行的再计算,要得到BLEU SCORE 需要对一系列的不同大小n-gram的精度指标再进行平均值的求解。