零、导读
scikit-learn库是当今最流行的机器学习算法库之一
可用来解决分类与回归问题
本章以鸢尾花数据集为例,简单了解八大传统机器学习分类算法的sk-learn实现
欲深入了解传统机器算法的原理和公式推导,请继续学习《统计学习方法》或《西瓜书》
一、数据集的预处理(鸢尾花数据集为例)
(1)下载数据集
iris = sns.load_dataset("iris") iris.head()
(2)查看数据集
sns.pairplot(data=iris,hue="species")
(3)标签清洗
iris_sip = iris.drop(["sepal_length","sepal_width"],axis=1) iris_sip.head()
(4)标签编码
from sklearn.preprocessing import LabelEncoder encoder = LabelEncoder() iris_sip["species"] = encoder.fit_transform(iris_sip["species"]) iris_sip
(5)数据集的标准化
(6)构建训练集和测试集
80% 是训练集
20% 是测试集
将x和y分开
二、八大传统分类算法
2.1 K邻近
[1]基本思想
与待预测点最近的训练数据集中的k个邻居
把k个近邻中最常见的类别预测为带预测点的类别
(5)可视化
2.2 朴素贝叶斯
[1]基本思想
当X=(x1, x2)发生的时候,哪一一个yk发生的概率最大
可视化