AI模型评估的指标

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/T4/G6 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 模型评估的指标
+关注继续查看

# 模型评估的指标


模型是在大量的数据集上训练而来的,无论一个模型是从零训练的还是基于某一个模型,通过微调方法得到的,靠人工评价模型的效果都是异常困难的。那么要想客观的、自动化的评价一个LLM模型,就需要能够选择正确评估模型效果的指标或者基准测试,来客观和自动化的完成评价,从而正确的反馈模型的效果。


## 常用指标


在测试AI系统中的模型训练和评估阶段,需要使用准备好的数据集对AI模型进行训练和评估。在训练过程中,应该对模型进行监控和调整,以确保模型的准确性和效果。在评估过程中,需要使用测试数据集对模型进行测试,以验证模型的准确性和效果。在评估过程中,需要使用各种度量方法来评估模型的准确性和效果,例如精度、召回率、F1分数等等。


精度是指模型正确预测的样本数占总样本数的比例,即:


image.png



其中,Precision是指精度,True Positive指分类器正确判断为正例的样本数,False Positive指分类器错误判断为正例的样本数。精度越高,说明模型的分类效果越好。


召回率是指模型正确预测的正样本数占所有正样本数的比例,即:

image.png



其中,Recall是指召回率,False Negative指分类器错误判断为负例的样本数。召回率越高,说明模型对正样本的覆盖率越高。


F1分数是精度和召回率的调和平均值,即:

image.png



F1分数综合了精度和召回率的指标,是一个综合性的评价指标。F1分数越高,说明模型的效果越好。


现在仅仅完成了精度、召回率、F1的介绍还是很难理解如何使用这些指标来评估一个 LLM 的模型。在 NLP 的评估中有两个评估指标,一个是 ROUGE 用来评估摘要生产的质量,一个是BlEU SCORE 用评估模型生成翻译的质量。这两个指标就是如上指标的应用,再详细解释使用方法之前先介绍一个定义,英文句子中每一个单词叫做 unigram,连续两个单词称为 bigram,连续三个单词称为 3-gram,后面以此类推,连续 n 个单词称为 n-gram。

假设有一个阅读摘要的任务,人类阅读完成后给出的结果是“the weather is very sunny",模型升成的摘要是”the weather is fine“。我们计算ROUGE-1 的精度、召回率、F1如下:


image.png

image.pngimage.png


ROUGE-1 的三个指标表示了是人工给出的摘要和模型升成摘要的单词的不一致,但是有时候往往某一个单词不一样却表达的是不一个意思,那么我们可以使用 bigram 来计算上面的三个指标,首先将人类总结的摘要和模型升成的摘要进行一些处理:

image.png


这样就按照 bigram 对原来的句子进行了划分,然后计算ROUGE-2 下的三个指标。

image.png

image.png

image.png


可以看出ROUGE-2 的指标比 ROUGE-1 的指标相对都变小了,那么句子越长,这个变化越大。如果要计算其他ROUGE数,也是一样的做法,通过 n-gram 计算对应的 ROUGE-n 指标。很显然,n-gram 越大,计算结果也越小,为了避免这种无意义计算可以采用最长共有子句(Logest common subsequence,LCS)。


image.png


按照 LCS 计算ROUGE-L的指标数值。


image.png

虽然多种 ROUGE指标,但是不通 ROUGE 下的指标是没有可比性的。那么如何选择n-gram 的大小是要靠模型的训练团队来通过不断的实验来决定的。


BLEU SCORE 也是如上指标的一个应用,是n-gram计算精度指标的进行的再计算,要得到BLEU SCORE 需要对一系列的不同大小n-gram的精度指标再进行平均值的求解。



相关文章
|
1天前
|
人工智能 算法 开发者
首届通义千问AI挑战赛开赛!参赛者畅玩通义开源模型家族!
12月1日,由阿里云和NVIDIA 英伟达联合主办,阿里云天池平台、魔搭社区、通义千问、CodeFuse支持承办的首届“通义千问AI挑战赛”开赛!参赛者可免费畅玩通义开源模型家族,包括刚刚发布的720亿参数模型Qwen-72B。
|
4天前
|
存储 人工智能 边缘计算
AI大模型时代,算力景气度持续走强
当前,AI技术爆发,算力作为AI发展的重要“底座”,已成为业界关注的重要议题。11月29日,以“智算力就是创新力”为主题的2023人工智能计算大会AICC在北京举行。大会围绕智算基础设施、生成式AI与大模型技术、产业数智转型等话题展开热议。
|
4天前
|
机器学习/深度学习 传感器 人工智能
在AI Earth农作物种植有没有对应的模型呢?例如:知道某个地块的坐标,可以获取农作物的分类、苗情、长势、成熟度、估产、农闲田、灾害、土壤墒情等这方面?
在AI Earth农作物种植有没有对应的模型呢?例如:知道某个地块的坐标,可以获取农作物的分类、苗情、长势、成熟度、估产、农闲田、灾害、土壤墒情等这方面?
14 1
|
4天前
|
人工智能 开发者
解决HuggingFace模型下载难题:AI快站的高效加速服务
在AI研发领域,获取优质模型资源是关键。国内开发者常因海外服务器导致的下载困难而苦恼,尤其是大型模型下载更是耗时且充满挑战。AI快站(aifasthub.com)作为huggingface镜像网站,提供了高效的加速下载服务。它不仅解决了huggingface大模型下载的速度问题,还支持断点续传,保证下载连续性。此外,AI快站还提供全面及时更新的模型资源,是国内AI开发者的理想选择。
64 0
|
4天前
|
人工智能 弹性计算 Serverless
基于函数计算FC3.0 部署AI数字绘画stable-diffusion自定义模型
基于函数计算FC3.0 部署AI数字绘画stable-diffusion自定义模型
|
4天前
|
人工智能 自然语言处理 算法
|
14天前
|
人工智能 Kubernetes Docker
打破算力瓶颈,快速部署AI大模型应用
打破算力瓶颈,快速部署AI大模型应用
|
19天前
|
人工智能 Kubernetes 大数据
探索云原生容器编排技术:如Kubernetes如何为大数据处理和AI模型的自动化部署带来便利
Kubernetes以容器为基础,将应用程序和其依赖项封装在容器中。这使得大数据处理和AI模型的部署更加一致和可移植,可以在不同的环境中轻松部署,包括开发、测试和生产环境。
|
19天前
|
人工智能 API 云计算
飞天技术观|ModelScope:共建模型生态,以模型自由加速AI应用创新
基于「模型即服务」,即MaaS(ModelasaService)的理念,ModelScope通过不断降低模型应用门槛,让AI更普惠,帮助开发者在ModelScope上能够低成本、高效地使用模型,并建立起良好的模型生态和开发者生态。
124 0
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
函数计算FC 这个模型AI大语言模型支持自主训练吗?
函数计算FC 这个模型AI大语言模型支持自主训练吗?
21 1
相关产品
人工智能平台 PAI
文字识别
视觉智能开放平台
推荐文章
更多