01-包安装
pip install scikit-learn
02-检验是否安装成功
import sklearn print(sklearn.__version__)
03-相关库介绍
3.1 Numpy库
Numpy是一个扩展的程序库,支持维度数组和矩阵运算,还针对数组运算提供大量的数学函数库。通常来说比较经常见到的是一维和二维数组,多维数组比较少见。
3.2 sklearn库
sklearn,全称scikit-learn,是python中的机器学习库,建立在numpy、scipy、matplotlib等数据科学包的基础之上,涵盖了机器学习中的样例数据、数据预处理、模型验证、特征选择、分类、回归、聚类、降维等几乎所有环节,功能十分强大
3.3 matplotlib库
Matplotlib是一个Python中广泛使用的绘图库,可以用于创建各种类型的静态、动态或交互式图表和可视化。它提供了一系列函数和工具,使得用户可以很方便地对数据进行处理和分析,并将其以图形化的方式呈现出来。
综合分类数据集
4.1 make_classification用法
在make_classification
函数中,各参数的意义如下:
n_samples
:生成的样本总数。n_features
:生成的特征数(或维度数)。n_informative
:在生成样本中有意义的特征数。n_redundant
:在生成样本中冗余(不相关)特征的数量。n_clusters_per_class
:每个类别中的聚类数量。如果设置为1,则每个类别只包含一个聚类,样本点是线性可分的;如果设置为大于1的值,则生成的样本点可以不是线性可分的。random_state
:随机种子,用于控制生成的样本的随机性。
这些参数一起影响了生成样本的特征和类别的分布。通过调整这些参数的值,可以生成不同特征和类别分布的样本集,用于机器学习任务和模型测试。
# 定义数据集 x, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1, random_state=4)
该代码段创建了一个具有2个特征的数据集,总共包含1000个样本。其中,每个样本有2个有信息量的特征(n_informative=2),没有冗余特征(n_redundant=0),每个类别只包含一个聚类(n_clusters_per_class=1)。通过设置这些参数,生成的数据集具有明确的特征分布,可以用于分类问题的模型训练和评估。
4.2 综合分类数据集
from numpy import where from sklearn.datasets import make_classification from matplotlib import pyplot # 定义数据集 X, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1, random_state=4) # 为每个类的样本创建散点图 for class_value in range(2): # 获取此类的示例的行索引 row_ix = where(y == class_value) # 创建这些样本的散布 pyplot.scatter(X[row_ix, 0], X[row_ix, 1]) # 绘制散点图 pyplot.show()
结果图如下所示:
image.png
完结撒花!