数据集划分方式(误差的评估方法)

简介: 留出法(hold out)、交叉验证法(cross validation)、留一法、自助法:(可重复采样,有放回的采样操作)

数据集的划分:训练数据和测试数据(注意两者应该是互斥的)

     其中训练数据可再分为:训练集和验证集

    验证集用来进行模型选择和调参 ;测试数据为实际中可能会遇到的所有数据。

训练集和测试集的划分方式

留出法(hold out):(注意数据的划分应该保持样本类别比例一致)

(1)采用分层采样操作:先将总体的单位按某种特征分为若干次级总体(层),然后再从每一层内进行单纯随机抽样,组成一个样本,参考https://blog.csdn.net/zealfory/article/details/53507848

(2)训练集=2/3~4/5的样本

再采用若干次随机划分,获得多组训练集和测试集,实验评估的结果取平均值

交叉验证法(cross validation):

(1)采用分层抽样,将数据集划分为k个大小互斥子集

(2)k-1个子集用于训练,1个子集用于测试

(3)总共k组训练和测试结果,评估结果取平均

5e7a3aee5f73b18ffbc6c07dad74cd57_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2hlZGEz,size_16,color_FFFFFF,t_70.png

再采用若干次随机划分,例如10次10折,也就是100次训练和测试结果取平均

其中k的取值一般为5,10,20等

留一法:

也即是上述的交叉验证法的一个特例,当样本数为m,划分的子集为m个。

因此不受随机样本划分的影响。

优劣:

cb056252779d1bb1f80c4e795666a91a_20190106211312102.png

自助法:(可重复采样,有放回的采样操作)

168dbea339143d3079e0df78f3632182_20190106211613607.png

优势是:在样本点较少时好用

缺点是:改变数据集分布,引入误差


目录
相关文章
|
5月前
|
机器学习/深度学习 数据采集 监控
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
830 0
构建一个分类模型,如何选择合适的损失函数和评估指标
构建一个分类模型,如何选择合适的损失函数和评估指标
|
2月前
|
SQL 自然语言处理 算法
评估数据集CGoDial问题之计算伪OOD样本的软标签的问题如何解决
评估数据集CGoDial问题之计算伪OOD样本的软标签的问题如何解决
|
3月前
|
机器学习/深度学习 索引 Python
。这不仅可以减少过拟合的风险,还可以提高模型的准确性、降低计算成本,并帮助理解数据背后的真正含义。`sklearn.feature_selection`模块提供了多种特征选择方法,其中`SelectKBest`是一个元变换器,可以与任何评分函数一起使用来选择数据集中K个最好的特征。
。这不仅可以减少过拟合的风险,还可以提高模型的准确性、降低计算成本,并帮助理解数据背后的真正含义。`sklearn.feature_selection`模块提供了多种特征选择方法,其中`SelectKBest`是一个元变换器,可以与任何评分函数一起使用来选择数据集中K个最好的特征。
|
4月前
偏微分方程有了基础模型:样本需求数量级减少,14项任务表现最佳
【6月更文挑战第16天】研究人员提出Poseidon模型,减少求解偏微分方程(PDEs)的样本需求,提升效率。在15个挑战任务中,该模型在14项表现最优。基于scOT的多尺度架构, Poseidon降低了计算成本,但仍有泛化和资源限制。[论文链接](https://arxiv.org/pdf/2405.19101)**
87 4
|
5月前
|
机器学习/深度学习 人工智能
【机器学习】有哪些指标,可以检查回归模型是否良好地拟合了数据?
【5月更文挑战第16天】【机器学习】有哪些指标,可以检查回归模型是否良好地拟合了数据?
|
5月前
|
机器学习/深度学习 算法 数据可视化
Python用KNN(K-近邻)回归、分类、异常值检测预测房价、最优K值选取、误差评估可视化
Python用KNN(K-近邻)回归、分类、异常值检测预测房价、最优K值选取、误差评估可视化
|
5月前
线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。
【5月更文挑战第2天】线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。但过多离散特征可能增加复杂度,丢失信息,影响模型泛化和精度。需谨慎平衡离散化利弊。
41 0
|
5月前
|
机器学习/深度学习 数据可视化 算法
支持向量回归SVR拟合、预测回归数据和可视化准确性检查实例
支持向量回归SVR拟合、预测回归数据和可视化准确性检查实例
|
5月前
|
机器学习/深度学习 数据可视化 算法
R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用
R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用