AI模型评估的指标

简介: 模型评估的指标

# 模型评估的指标


模型是在大量的数据集上训练而来的,无论一个模型是从零训练的还是基于某一个模型,通过微调方法得到的,靠人工评价模型的效果都是异常困难的。那么要想客观的、自动化的评价一个LLM模型,就需要能够选择正确评估模型效果的指标或者基准测试,来客观和自动化的完成评价,从而正确的反馈模型的效果。


## 常用指标


在测试AI系统中的模型训练和评估阶段,需要使用准备好的数据集对AI模型进行训练和评估。在训练过程中,应该对模型进行监控和调整,以确保模型的准确性和效果。在评估过程中,需要使用测试数据集对模型进行测试,以验证模型的准确性和效果。在评估过程中,需要使用各种度量方法来评估模型的准确性和效果,例如精度、召回率、F1分数等等。


精度是指模型正确预测的样本数占总样本数的比例,即:


image.png



其中,Precision是指精度,True Positive指分类器正确判断为正例的样本数,False Positive指分类器错误判断为正例的样本数。精度越高,说明模型的分类效果越好。


召回率是指模型正确预测的正样本数占所有正样本数的比例,即:

image.png



其中,Recall是指召回率,False Negative指分类器错误判断为负例的样本数。召回率越高,说明模型对正样本的覆盖率越高。


F1分数是精度和召回率的调和平均值,即:

image.png



F1分数综合了精度和召回率的指标,是一个综合性的评价指标。F1分数越高,说明模型的效果越好。


现在仅仅完成了精度、召回率、F1的介绍还是很难理解如何使用这些指标来评估一个 LLM 的模型。在 NLP 的评估中有两个评估指标,一个是 ROUGE 用来评估摘要生产的质量,一个是BlEU SCORE 用评估模型生成翻译的质量。这两个指标就是如上指标的应用,再详细解释使用方法之前先介绍一个定义,英文句子中每一个单词叫做 unigram,连续两个单词称为 bigram,连续三个单词称为 3-gram,后面以此类推,连续 n 个单词称为 n-gram。

假设有一个阅读摘要的任务,人类阅读完成后给出的结果是“the weather is very sunny",模型升成的摘要是”the weather is fine“。我们计算ROUGE-1 的精度、召回率、F1如下:


image.pngimage.pngimage.pngimage.pngimage.png

image.png

image.pngimage.png


ROUGE-1 的三个指标表示了是人工给出的摘要和模型升成摘要的单词的不一致,但是有时候往往某一个单词不一样却表达的是不一个意思,那么我们可以使用 bigram 来计算上面的三个指标,首先将人类总结的摘要和模型升成的摘要进行一些处理:

image.png


这样就按照 bigram 对原来的句子进行了划分,然后计算ROUGE-2 下的三个指标。

image.png

image.png

image.png


可以看出ROUGE-2 的指标比 ROUGE-1 的指标相对都变小了,那么句子越长,这个变化越大。如果要计算其他ROUGE数,也是一样的做法,通过 n-gram 计算对应的 ROUGE-n 指标。很显然,n-gram 越大,计算结果也越小,为了避免这种无意义计算可以采用最长共有子句(Logest common subsequence,LCS)。


image.png


按照 LCS 计算ROUGE-L的指标数值。


image.png

虽然多种 ROUGE指标,但是不通 ROUGE 下的指标是没有可比性的。那么如何选择n-gram 的大小是要靠模型的训练团队来通过不断的实验来决定的。


BLEU SCORE 也是如上指标的一个应用,是n-gram计算精度指标的进行的再计算,要得到BLEU SCORE 需要对一系列的不同大小n-gram的精度指标再进行平均值的求解。



目录
相关文章
|
3月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
1950 120
|
4月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
935 109
|
3月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
364 120
|
4月前
|
人工智能 监控 Kubernetes
稳定支撑大规模模型调用,携程旅游的 AI 网关实践
为了进一步提升服务水平和服务质量,携程很早就开始在人工智能大模型领域进行探索。而随着工作的深入,大模型服务的应用领域不断扩大,公司内部需要访问大模型服务的应用也越来越多,不可避免的就遇到了几个问题,我们自然就会想到使用网关来对这些服务接入进行统一管理,并增加各种切面上的流量治理功能。
453 44
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
810 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
3月前
|
人工智能 自然语言处理
如何识别AI生成内容?这几点技术指标是关键
如何识别AI生成内容?这几点技术指标是关键
859 2
|
4月前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
565 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
3月前
|
人工智能 JSON 监控
三步构建AI评估体系:从解决“幻觉”到实现高效监控
AI时代,评估成关键技能。通过错误分析、归类量化与自动化监控,系统化改进AI应用,应对幻觉等问题。Anthropic与OpenAI均强调:评估是产品迭代的核心,数据驱动优于直觉,让AI真正服务于目标。
387 8