模型评估和选择(二)| 学习笔记

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 快速学习模型评估和选择。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):模型评估和选择(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/15648


模型评估和选择(二)


三、分类器评估的框架

再看一下对分类器的评估的一些框架。

1.Holdout method

首先第一种常用的框架叫做 Holdout 就是留余法,那一般,会把数据分成两部分,其中2/3作为训练集1/23作为测试集。重复上面的过程就可以得到多个训练集合,多个测试集,然后利用每一个训练好的分类集的精度。作为每一轮的精度,然后把每一轮的精度加起来,取平均,就得到这个分类区最终的进度。

图片69.png

2.Cross-validation

和 Holdout method 所对应的,就是 Cross-validation 叫做交叉验证,采用的k值,一般设置为十,也就是说一般是喜欢采用十折交叉验证。

(1)、那对于十折交叉验证来说,它主要是首先对数据集进行有放回的采样,然后将采样后的数据分为k个部分,然后把每一次从k个部分中取一部分作为测试集,其余的作为训练集后,得到一个分类器计算它的精度,然后依次把所有的精度加起来取平均。

(2)那对于 Cross-validation 类型来说,它有一个特例叫做 Leave-one-out,就是留余法语,是指的是在每一次中只取它的一个作为测试集,其余的作为训练集,也就是留余法其实是一种特定的 Cross-validation,它是将数据集划分为K份这个时候k的值是等于数据元素的值。

(3)、这里通过一个图像介绍三折交叉验证。三折交叉验证是属于一次,首先从数据集中,进行有放回的采样,得到一个抽样集,然后把抽样集分为三个部分,每一次取其中的一个部分作为测试集,其余两个部分作为训练集,也就是说,在每一个 fold 中就会得到一个分类器,有三个fold会得到,三个分类器,然后把这三个分类器的,accuracy 去平均得到这一次循环的精度。

(4)那比如说要经过十折,可能抽样十次就会有十个精度,然后把这十个精度再加起来取平均作为分类器的精度。这个是关于 Cross-validation。

图片70.png  

四、orc 曲线

最后介绍如何使用 orc 曲线进行分类器模型的比较和选择。

1. orc 曲线概念

首先来看一下什么是 orc 曲线。Orc 曲线被称之为叫做接收者操作曲线。主要是用来表示每一个分类器,它的真的正事例率和假的正事例率之间的平衡关系。

2. orc 曲线图像及计算

对于 orc 曲线来说,它的个横坐标,代表的是假的正事例率,而它的纵坐标代表是真的正事例率。

(1)、计算。对于假的正事例率是用这样的公式去计算就是 fp÷fp+tn。真的真事例率呢?就是用 tp÷(tp+fn)。在于这个图上就显示了一条 roc 曲线。这种 orc 曲线表示的分类器。

图片71.png

(2)它什么样的曲线代表的是一种好的分类器?用一个对角线表示的是一个随机猜测的一个分类的性能,比如说对于某一个固定的这样的一个 fpr,那肯定是希望,比如在0.3这个 ftr 的基础上,如果这个分类器它的 tpr 越高越好,所以可以利用,曲线下面的面积来代表这个分类器的性能。那如果在固定的这样的一个 fpr 的条件下,它的 tpr 越高,就意味着这个曲线下的面积越大。因此,就把这样的一个orc曲线下的这部分面积,把它称之为叫做 aUC,也就是一个分类器它所对应 orc 曲线的 AOC 面积越大,这个分类器就越好,可以看一下,在图上有两条分类所对应的。

Or c 曲线一个是 a,一个是b。那很明显,b 所对应的这个分类器,它的 AOC 面积比较大,那所以说这个分类器,它肯定是比 a 分类器要好。

图片72.png

3.绘制or c曲线

在了解了 or c 曲线比较分类器的原理之后,就来学习一下如何去绘制 or c 曲线。

对于一个分类器的 roc 曲线来说,它的每一点就是代表了这个分类器的 tpr 和 fpr。

(1)、那如何得到一个分类器的多个的 tpr 和fpr 呢?主要是通过调节它的分类阈值来达到。

(2)、可以对测试级的每一个示例计算它的分 数,这个分数的含义是什么呢?就是指的是这个是的,它被判断为正事例的分数,分数越高就表明它被判断为正事例的可能性越大。

(3)、把这些分数计算出来之后,把它从高到低进行排序,然后一次选择每一个分数作为预值来判断势力的类别,从而可以得到多个 roc 曲线上点,然后再将这些点把它连接起来并平滑就可以得到这个分类区的 or c 曲线。

(4)计算这种分数有多种方法。比如说之前介绍过朴素的贝叶斯分类器,朴素的贝叶斯分类器可以计算每一个事例,它为正事例的概率和为负事例的概率,那可以把它为正事例的概率作为这样的一个 score。还有一些别的其它的方法。

图片73.png 

图片74.png 

(5)那来看一下这个曲线是怎么画的?首先,计算了每一个测试集中它的分数,然后把分数呢从低到高进行排列,首先从得分最高的这个分数来看,那也就是如果设置这个阈值为一的话,如果当它的分数必须要大于等于一的时候,才判断这个事例为正根据这样的一个阈值条件,那我所有的这些数据对象都被划分为了什么负事例,也就意味着 tpr和我的 fpr 的取值都为零就是对应到 or c 曲线上的第一个点。在调整这样的一个阈值假设设0.95为阈值,也就是只有它的分数大于等于0.95才是正事例,这个时候,只有一个事例被判断为正事例,它和它的类别是一致的也就是正确的,这个时候,它的所有的事例都为负事例,所以 fp 的值是零,根据 tp、fp 的值,就可以算出 tp r  和 f pr,对应的这个值就是0.2,比如说它的 tpr 会增加但是 f pr 依然为零。那一次再往前一个阈值设置,设置为0.93的时候就有两个事例被判断为正事例而且这两个事例它的初始的标签,本来就是真的,所以 tp的值是二,所有的事例都被判断为负事例所以f p依然为零如果设置阈值可以得到曲线上的一个点就是(0.4,0),然后再向前,进行阈值的选择到0.87这里,大于等于0.87才是正事例,可以得到三个正事例,其中有两个是被正确判断的,一个是被错误判断的,所以就得到分类器上的另外一个 ro c 曲线上的点,就是(0.4,0.2),依次的取这样的一些阈值,就可以得到若干个点,把这若干个点连接起来,并且进行平滑,就可以得到最后的关于这个分类器的 roc 曲线。

图片75.png 

五、模型选择因素

然后再来看一下,在模型选择中还有一些其它的因素,是需要考虑的。

1.accuracy

那之前主要考虑的是 accuracy 就是分类器的准确度。

2.speed

那其实在模型选择的时候,除了要考虑它的准确率,可能还要考虑这个模型的它的速度,也就是如果这个分类器比较复杂,它的分类准确度可能会比较高,但它的时间需要的时间比较多,速度比较慢,也会考虑是否去选择这个分类器,

3.robustness

其余还需要考虑的就是这个分类器的鲁棒性,就是如果数据中噪音比较多,这个分类器是不是会受比较大的影响。

4.scalability

还有这个可扩展性,也就是数据可能是会更新的,这样的一个分类器,它是不是可以方便的更新,那有可能训练集的数量会非常非常大,这个分类器它是不是对于这种大数据级是不是能够非常快速地进行构建和分类。

5.interpretability

此外,可能还需要考虑这个分类器的可解释性,因为一个分类器它只有具有可解释性,人们才能更好的理解它,才能更好的去利用它,除了之前的一些指标,可能还有一些其它的指标用于帮助去选择分类器。

相关文章
|
机器学习/深度学习 自然语言处理 算法
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
本文是作者在学习文本摘要任务的过程中,根据学习资料总结逐步得到并整理为成文的相关内容。相关学习资料(包括论文、博文、视频等)都会以脚注等形式标明。有一些在一篇内会导致篇幅过长的内容会延伸到其他博文中撰写,但会在本文中提供超链接。 本文将主要列举里程碑式的重要文本摘要论文。 注意:除文首的表格外,本文所参考的论文,如本人已撰写对应的学习博文,则不直接引用原论文,而引用我撰写的博文。 本文会长期更新。
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
|
24天前
|
机器学习/深度学习
过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%
研究团队提出了一种新的过程奖励模型(PRM),通过衡量每一步骤的进展来改进大型语言模型(LLM)的推理能力。与仅在最后提供反馈的结果奖励模型(ORM)不同,PRM能在多步骤推理中逐步提供反馈,从而改善信用分配。研究引入了过程优势验证者(PAV),用于预测证明策略下的进展,显著提升了测试时间搜索和在线强化学习(RL)的效率与准确性。实验表明,PAV相比ORM提高了8%以上的准确性和5至6倍的样本效率。该方法在Gemma2模型上得到了验证,并展示了在解决复杂问题上的潜力。尽管成果显著,但仍需进一步研究以优化证明策略的设计和减少拟合误差。
150 97
|
1月前
|
人工智能 数据安全/隐私保护
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理
普林斯顿大学和耶鲁大学研究人员发布报告,探讨链式思维(CoT)提示对大型语言模型(LLM)推理能力的影响。研究通过移位密码任务,揭示了三个关键因素:任务输出概率、预训练阶段的隐性学习及中间操作数量(噪声推理)。实验使用GPT-4、Claude 3和Llama 3.1模型,发现CoT提示可显著提升模型准确性,但也存在局限性。论文地址:https://arxiv.org/abs/2407.01687。
103 29
|
5月前
|
算法
两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调
【9月更文挑战第10天】微软研究院亚洲院与哈佛大学研究团队提出了rStar,一种创新的方法,旨在提升小型语言模型(SLMs)的推理能力。rStar采用自我对弈的相互生成-判别过程,利用增强版蒙特卡洛树搜索(MCTS)算法生成高质量推理轨迹,并由另一个相似能力的SLM验证这些轨迹的一致性。这种方法在多个模型与任务中显著提升了推理准确率,如在GSM8K上,LLaMA2-7B的准确率从12.51%跃升至63.91%。rStar的独特之处在于无需微调或依赖更强大的模型即可提升推理能力。然而,其计算成本和对SLM自身能力的依赖仍是挑战。
210 7
|
2月前
|
人工智能 搜索推荐 决策智能
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
69 12
|
3月前
|
人工智能 自然语言处理 测试技术
苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑
苹果公司发布论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》,质疑大型语言模型(LLM)在数学推理方面的能力。尽管LLM在GSM8K等测试中表现良好,但在新基准测试GSM-Symbolic中,其准确率随数值变化而显著下降,表明LLM可能依赖于记忆和模式匹配而非真正的数学理解。这一发现引发了AI领域的广泛讨论。
61 5
|
3月前
|
机器学习/深度学习
NeurIPS 2024:标签噪声下图神经网络有了首个综合基准库,还开源
NoisyGL是首个针对标签噪声下图神经网络(GLN)的综合基准库,由浙江大学和阿里巴巴集团的研究人员开发。该基准库旨在解决现有GLN研究中因数据集选择、划分及预处理技术差异导致的缺乏统一标准问题,提供了一个公平、用户友好的平台,支持多维分析,有助于深入理解GLN方法在处理标签噪声时的表现。通过17种代表性方法在8个常用数据集上的广泛实验,NoisyGL揭示了多个关键发现,推动了GLN领域的进步。尽管如此,NoisyGL目前主要适用于同质图,对异质图的支持有限。
79 7
|
9月前
|
缓存 人工智能 数据可视化
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
LLM 大模型学习必知必会系列(十一):大模型自动评估理论和实战以及大模型评估框架详解
|
机器学习/深度学习 人工智能 数据可视化
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
514 1
|
存储 Java API
【网安AIGC专题11.7】17ASAP如何更好地改进少样本提示:在LLMs的prompt中添加语义信息,来提高代码摘要生成+代码补全任务的性能。CodeSearchNet数据集(下)
【网安AIGC专题11.7】17ASAP如何更好地改进少样本提示:在LLMs的prompt中添加语义信息,来提高代码摘要生成+代码补全任务的性能。CodeSearchNet数据集(下)
186 0

热门文章

最新文章