在实际训练中,经常会把训练数据进一步拆分成训练集和测试集这样有助于模型选取。
想要数据集或者有不明白的请点赞关注后私信博主
Sklearn中的train_test_spilt
函数是交叉验证常用的函数,功能是从样本中随机地按比例选取训练集和测试集
原数据如下:
拆分后效果如下
ton代码如下
from sklearn import preprocessing from sklearn.model_selection import train_test_split import pandas as pd import numpy as np data1=pd.read_csv(r'CatInfo.csv',",") print(data1) df=pd.DataFrame(data1) car_train_x,cat_test_x,cat_train_y,cat_test_y=train_test_split(df['Lwsk'],df['LEar'],test_size=0.3,random_state=0) print('trainx\n',car_train_x) print('trainy\n',cat_train_y) print('testx\n',cat_test_x) print('testy\n',cat_test_y)
同样地 对训练出来的结果进行精确率的评估也是非常重要的sklearn里同样提供里评估的函数
具体评估因子有 1:精确率 2:召回率 3:F-measure指数等等
效果图如下
代码如下
from sklearn.metrics import classification_report y_true=[0,1,2,2,2] y_pred=[0,0,2,2,1] print(classification_report(y_true,y_pred))