step by step
1、Logistic回归算法
2、iris&mnist数据集测试
3、算法优缺点总结
一、Logistic回归算法
逻辑回归(Logistic Regression)主要解决二分类问题,用来表示某件事情发生的可能性。
比如:
- 一封邮件是垃圾邮件的可能性(是、不是)
- 你购买一件商品的可能性(买、不买)
- 广告被点击的可能性(点、不点)
Sklearn LogisticRegression 参数解释
multi_class
- {‘auto’, ‘ovr’, ‘multinomial’}, default=’auto’如果选择的选项是“ ovr”,则每个标签都看做二分类问题。对于“multinomial”,即使数据是二分类的,损失最小是多项式损失拟合整个概率分布。当solver ='liblinear' 时, 'multinomial' 不可用。如果数据是二分类的,或者如果Solver ='liblinear',则'auto'选择'ovr',否则选择'multinomial'。
更多解释参考 链接
二、iris&mnist数据集测试
- 2.1 iris数据集测试
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
X, y = load_iris(return_X_y=True) # 加载数据集,获取数据
log1 = LogisticRegression(random_state=0)
log1.fit(X, y)
print(log1.score(X, y))
log2 = LogisticRegression(multi_class="multinomial", solver="newton-cg")
log2.fit(X, y)
print(log2.score(X, y))
运行结果
0.96
0.9733333333333334
- 2.2 mnist数据集测试
import time
import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.utils import check_random_state
# 获取数据集并做打散处理
t0 = time.time()
train_samples = 5000
X, y = fetch_openml("mnist_784", version=1, return_X_y=True)
random_state = check_random_state(0)
permutation = random_state.permutation(X.shape[0])
X = X[permutation]
y = y[permutation]
X = X.reshape((X.shape[0], -1))
X_train, X_test, y_train, y_test = train_test_split(
X, y, train_size=train_samples, test_size=10000
)
# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# 使用两种分类方式对比
log1 = LogisticRegression()
log2 = LogisticRegression(multi_class="multinomial", solver="newton-cg")
log1.fit(X_train, y_train)
score1 = log1.score(X_test, y_test)
log2.fit(X_train, y_train)
score2 = log2.score(X_test, y_test)
print("Test score: %.4f" % score1)
print("Test score: %.4f" % score2)
运行结果
Test score: 0.8625
Test score: 0.8833
- 2.3
通过在iris和mnist两个数据集上的效果测试来看,multinomial的分类效果一般会更好一点。
三、算法优缺点总结
优点:
- 实现简单,广泛的应用于工业问题上;
- 分类时计算量非常小,速度很快,存储资源低;
- 便利的观测样本概率分数;
- 对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决该问题;
- 计算代价不高,易于理解和实现;
缺点:
- 当特征空间很大时,逻辑回归的性能不是很好;
- 容易欠拟合,一般准确度不太高
- 不能很好地处理大量多类特征或变量;
- 只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;
- 对于非线性特征,需要进行转换;