五、分类模型-阿里云开发者社区

五、分类模型

2024-10-18 119 发布于天津

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 五、分类模型

一、分类模型的定义

在机器学习中，我们把机器学习分为监督学习和非监督学习，监督学习就是在一组有标签（有目标）属性的数据集中，我们将数据教给机器学习，让他根据数据中的属性和目标，去看题目答案一样把答案记住。之后再给类似的题目去作一样。

我们把数据集中的标签，一般都标为属性，而我们又把属性分为离散属性和连续属性，每一个标签都是可以这样分的。像如果我们预测的属性值的特性是连续属性的话，我们把这种模型称为是回归模型。

最为典型的就是:y = w ∗ x + b y=w*x+by=w∗x+b 这样的一元回归（也就是一次函数，推广一下就是多元回归）

我们预测是连续的属性，我们可以称为是回归模型，那么如果我们预测的是离散属性呢，属性值只有1/0或者多个类别，我们把预测这种的模型就叫做分类模型

二、分类模型类型

在分类模型中，我们有：

逻辑回归（名字带有回归可不一定是回归啊）
决策树
支持向量机（最为经典一种）
朴素贝叶斯

在机器学习中，我们基本上都可以将都可以监督学习算法分为回归与分类的

2.1、逻辑回归

再说逻辑回归之前我们需要先了解sigmold函数：

f ( x ) = 1 / ( 1 + e y ) f(x)=1/(1+e^y)f(x)=1/(1+ey)

此函数和线性回归方程联合一起即可，得到逻辑回归方程

import numpy as np
import math
import matplotlib.pyplot as plt
%matplotlib inline

X=np.linspace(-5,5,200)

X=np.linspace(-5,5,200)
y=[1/(1+math.e**(-x)) for x in X]
plt.plot(X,y)
plt.show()

在这里我们先通过线性回归将数据分类，分类之后可以通过sigmold函数取离散化

在现实生活中逻辑回归模型一般是不够好的，所以我们很少用到逻辑回归，

2.2、决策树

对于分类树来说，给定一个观测值，因变量的预测值为它所属的终端结点内训练集的最常出现的类。分类树的构造过程与回归树也很类似，与回归树一样，分类树也是采用递归二叉分裂。但是在分类树中，均方误差无法作为确定分裂节点的准则，一个很自然的替代指标是分类错误率。分类错误率就是：此区域内的训练集中非常见类所占的类别，即：

上式中的代表第m个区域的训练集中第k类所占的比例。但是在大量的事实证明：分类错误率在构建决策树时不够敏感，一般在实际中用如下两个指标代替：

(1) 基尼系数

(2) 交叉熵：

# 使用决策树算法对iris分类：
'''
criterion:{“gini”, “entropy”}, default=”gini”
max_depth:树的最大深度。
min_samples_split:拆分内部节点所需的最少样本数
min_samples_leaf :在叶节点处需要的最小样本数。
'''
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets
tree_iris = DecisionTreeClassifier(min_samples_leaf=5)
import pandas as pd
 
iris = datasets.load_iris()
X = iris.data
y = iris.target
feature = iris.feature_names
data = pd.DataFrame(X,columns=feature)
data['target'] = y
data.head()

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)	target
0	5.1	3.5	1.4	0.2	0
1	4.9	3.0	1.4	0.2	0
2	4.7	3.2	1.3	0.2	0
3	4.6	3.1	1.5	0.2	0
4	5.0	3.6	1.4	0.2	0

tree_iris.fit(X,y)
tree_iris.score(X,y)

0.9733333333333334

2.3、支持向量机

支持向量机SVM是20世纪90年代在计算机界发展起来的一种分类算法，在许多问题中都被证明有较好的效果，被认为是适应性最广的算法之一。

支持向量机是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane）求解方法很多，可以参考李航的<<统计学习>>学习

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
'''
C:正则化参数。正则化的强度与C成反比。必须严格为正。惩罚是平方的l2惩罚。
kernel:{'linear'，'poly'，'rbf'，'sigmoid'，'precomputed'}，默认='rbf'
degree:多项式和的阶数
gamma:“ rbf”，“ poly”和“ Sigmoid”的内核系数。
shrinking:是否软间隔分类，默认true
'''
svc_iris = make_pipeline(StandardScaler(), SVC(gamma='auto'))
svc_iris.fit(X, y)
svc_iris.score(X,y)

0.9733333333333334

2.4、朴素贝叶斯

贝叶斯方法是以贝叶斯原理为基础，使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础，贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率，即避免了只使用先验概率的主观偏见，也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率，同时算法本身也比较简单

五、分类模型

一、分类模型的定义

二、分类模型类型

2.1、逻辑回归

2.2、决策树

2.3、支持向量机

2.4、朴素贝叶斯

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

五、分类模型

一、分类模型的定义

二、分类模型类型

2.1、逻辑回归

2.2、决策树

2.3、支持向量机

2.4、朴素贝叶斯

热门文章

最新文章

相关课程

相关电子书

相关实验场景