学习笔记: 机器学习经典算法-逻辑回归(Logistic Regression)

简介: 机器学习经典算法-个人笔记和学习心得分享

逻辑回归(Logistic Regression) 是目前各行业最常用的分类方法,属于线性回归的拓展。

特点
该算法联系了样本的特征和样本发生概率(ˆp=f(x)),在运算上由于 概率值 本身是一个数值,因此该方法分类方法被称为回归方法。算法最终得到样例的预测概率值 ˆp 用于 分类问题。所以逻辑回归既可以看作是回归算法,也可以看作是分类算法,通常作为分类算法使用,只可以解决二分类问题
ˆy={0,ˆp0.5;1,ˆp0.5

1、逻辑回归的基本原理

逻辑回归源于线性回归的拓展,具体思路是将线性回归的样本输出预测值到样本概率值的一个转换过程。在线性回归ˆy=f(x)=θTxb中,有预测的样本标记输出值 ˆy(,)。为了使样本输出值 ˆy 转换为概率值 ˆp[0,1],可通过Sigmoid 函数转换 样本值样本概率 ˆp=σ(θTxb)

关于Sigmoid 函数
σ(t)=11+et



Sigmoid 曲线具有如下性质:

  • 函数曲线最左端无限趋近于0,函数曲线最右端无限趋近于1;值域 σ(t)(0,1),因此很方便地用于表达概率;
  • {p>0.5,t>0;p<0.5,t<0

使用 Sigmoid 函数转换样本值为样本概率 ˆp=11+e(θTxb),进一步基于样本概率进行二分类任务 ˆy={1,ˆp0.5;0,ˆp0.5.

1.2 逻辑回归的优化目标

对于给定的样本集X和样本分类y,找到参数θ, 使得用Sigmoid 转换可以最大程度获得样本数据集X对应的分类输出y

1.2.1 目标函数的定义

对于二分类问题,样本输出标记取值为离散变量 y{0,1}。使用 Sigmoid框架来获取样本特征到样本概率 ,再实现样本离散值标记的转换的时候。由于原始样本标记是一个离散值,而逻辑回归输出标记是一个分类概率值,意味着不能通过与类似线性回归等算法建立预测值与标记值的误差函数作为优化目标。

逻辑回归的损失函数定义建立在离散的样本标记上,定义如下 惩罚函数

cost={y=1,ˆpcosty=0,ˆpcost
在进行逻辑回归的时候,如果样本 真值为1,当前θ下的预测概率值ˆp越小,则有惩罚越大;如果样本 真值为0,当前θ下的预测概率值ˆp越大,则有惩罚越大;从而回归的目标为取得 最小惩罚下 对应的 参数θ

1.2.2 惩罚函数的选取

cost={log(ˆp)           if   y=1log(1ˆp)    if   y=0

  • y=1时,使用 cost(ˆp)=log(ˆp) 作为惩罚函数,ˆp[0,1] ,当 ˆp0 的时候有 惩罚cost(ˆp) 趋于正无穷;只有ˆp1惩罚cost(ˆp) 才会变小。
  • y=0时,使用 cost(ˆp)=log(1ˆp) 作为惩罚函数,ˆp[0,1] ,当 ˆp1 的时候有 惩罚cost(ˆp) 趋于正无穷;只有ˆp0惩罚cost(ˆp) 才会变小。

进一步将分条件的 cost 函数联合为一个函数:
cost(ˆp)={log(ˆp)           if   y=1log(1ˆp)    if   y=0cost(ˆp)=y(log(ˆp))+(1y)(log(1ˆp))


y=1,cost 函数仅表示为 log(ˆp)      的结果;
y=0,cost 函数仅表示为 log(1ˆp)的结果。

全数据集X的样本损失函数表达为:
J(θ)=1mmi=1cost(ˆp)=1mmi=1y(i)log(ˆp(i))+(1y(i))log(1ˆp(i))


(i)     ˆp(i)=σ(θTx(i)b)=11+eθTx(i)b

回归目标是找到一组θ是的J(θ)得到最小值;逻辑回归的损失函数 无正规方程解J(θ) 本质是一个 凸函数(Convex),存在全局最优解,只能用 梯度下降法求解

1.2.3 J(θ)的梯度

对于损失函数J(θ)有如下形式:
J(θ)=1mmi=1y(i)log(σ(t))+(1y(i))log(1σ(t))

  • 根据求导链式法则对前半部分 y(i)log(σ(t)) 求导
    首先,令 t=θTx(i)b
    σ(t)=11+e(t)=(1+e(t))1
    σ(t)=1(1+e(t))2e(t)(lne1)=(1+et)2et
    log(σ(t))=1σ(t)σ(t)=1σ(t)(1+et)2et=(1+et)(1+et)2et=(1+et)1et=1+et11+et=111+et
    log(σ(t))=1σ(t)

[y(i)log(σ(t))]=(y(i)log(σ(θTx(i)b)))(θj)=y(i)(1σ(θTx(i)b))x(i)b_j

..........................................................................................

  • 根据求导链式法则对后半部分 (1y(i))log(1σ(t)) 求导
    [log(1σ(t))]=11σ(t)(σ(t))=11σ(t)(1+et)2et=1+etet(1+et)2et=(1+et)1=σ(t)

[(1y(i))log(1σ(t))]=((1y(i))log(1σ(θTx(i)b)))θj=(1y(i))(σ(θTx(i)b))x(i)b_j
..........................................................................................
联合前后部分函数的求导结果为 J(θj)
J(θj)=1mmi=1y(i)(1σ(θTx(i)b))x(i)b_j+(1y(i))(σ(θTx(i)b))x(i)b_j
J(θj)=1mmi=1(σ(θTx(i)b)y(i))x(i)b_j=1mmi=1(ˆy(i)y(i))x(i)b_j
推广到 所有θ
J(θ)=[J/θ0J/θ1...J/θn]=1m[mi=1σ(X(i)bθyi)( 1 )mi=1σ(X(i)bθyi)(xi1)...mi=1σ(X(i)bθyi)(xin)]=1mXTb(σ(Xbθ)y)

逻辑回归损失函数的梯度结果与线性回归极其类似!!!

1.2.4 参数θ 梯度下降法求解一般过程

### Prepare data
import numpy as np
from sklearn import datasets
iris = datasets.load_iris()
from sklearn.model_selection import train_test_split
Train_X,Test_X,Train_Y,Test_Y = train_test_split(iris.data[iris.target < 2,:2],iris.target[iris.target < 2],test_size= 0.2,random_state=666)
X_b = np.hstack([np.ones((len(Train_X),1)),Train_X])
y = Train_Y

### sigmoid function
def _sigmoid(t):
    return 1 / (np.exp(-t) + 1)

### Loss Function
def J(theta,X_b,y):
    y_hat = _sigmoid(X_b.dot(theta))
    try:
        return - np.sum(y*np.log(y_hat)+(1-y)*np.log(1-y_hat))/len(y)
    except:
        return float('inf') ### 异常检测,如果出现异常返回浮点数最大值float('inf')
### Derivative function
def dJ(X_b,y,theta):
    return X_b.T.dot(_sigmoid(X_b.dot(theta)) - y) / len(X_b)
### Gradient Descent
eta = .000001 ### 学习率
epsilon = 1e-8 ### 定义一个误差范围,当初始点开始滚动,如果当前点位与一点位函数值误差小于定义的epsilon误差范围,认为当前点为就是最优解。
theta_lst = [np.random.randint(10,size = X_b.shape[1])+ np.random.normal(size = X_b.shape[1])] ### 随机化滚落初始点
while True:
    gradient = dJ(X_b,y,theta_lst[-1])
    theta_lst.append(theta_lst[-1] - eta * gradient)

    if(abs(J(theta_lst[-1],X_b,y) - J(theta_lst[-2],X_b,y)) < epsilon):break
    if(len(theta_lst) > 1e4): break       ### 循环1e4次以后如果没有取得最优解将退出循环

print(theta_lst[-1])
AI 代码解读

1.2.5 scikit-learn 框架下线性分布数据的逻辑回归

import numpy as np
from sklearn import datasets
iris = datasets.load_iris()
from sklearn.model_selection import train_test_split
Train_X,Test_X,Train_Y,Test_Y = train_test_split(iris.data[iris.target < 2,:2],iris.target[iris.target < 2],random_state=666)

from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression()
log_reg.fit(Train_X,Train_Y)
log_reg.score(Test_X,Test_Y)
log_reg.decision_function(Test_X) ### 获取 θ^T·x_b 的决策值 ,
AI 代码解读

2、非线性数据的逻辑回归

对于 线性分布的数据,意味着其样本在特征空间的类别分布可以被 一条直线或(超平面) 所分割,对应 决策边界 表示为线性方程 θTxb=0。对于 非线性分布的数据 , 其在特征空间中的类别分布无法被 一条直线或(超平面) 所分割。

多项式回归 一章中,非线性数据的回归问题可以通过构造特征转换为线性回归问题。同理在 逻辑回归 中处理非线性分布数据的判别问题中也可以通过 添加多项式项(构造特征) 再进行 逻辑回归,从而 获得任意形状的决策边界

2.2 scikit-learn 框架下非线性分布数据的逻辑回归

### Prepare data
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(666)
X = np.random.normal(0,1,size = (200,2)) 
y = np.array(X[:,0]**2 +X[:,1] < 1.5 ,dtype='int') ### 令曲线 -x_0^2 - x_1 + 1.5 = 0 下方的样本分类为 1
for _ in range(20):  ### 生成分类噪音
    y[np.random.randint(200)] = 1  

### Darw sample distribution
plt.scatter(X[y == 0 ,0],X[y == 0 ,1])
plt.scatter(X[y == 1 ,0],X[y == 1 ,1])
plt.show()
AI 代码解读

### Logistic Regression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

def PolynomialLogisticRegression(degree):
    return Pipeline([
        ('poly',PolynomialFeatures(degree=degree)),
        ('std_scaler',StandardScaler()),
        ('logistic_reg',LogisticRegression())
    ])
poly_log_reg = PolynomialLogisticRegression(degree= 2)
poly_log_reg.fit(Train_X,Train_Y)
poly_log_reg.score(Test_X,Test_Y)
AI 代码解读

3、逻辑回归中添加正则化

对于线性算法,当添加上多项式项时模型复杂度随着随着多项式项阶数(degree)的上升而指数级增大,进而容易发生对 训练集过拟合 的问题,在逻辑回归中也是如此(表现在决策边界的规整情况)。解决模型过拟合问题的常规处理为向模型添加 正则化 ,通过约束参数大小从而提高模型的泛化能力降低方差。

3.2 逻辑回归的正则项

  • 损失函数添加 L1 正则项
    CJ(θ)+L1=CJ(θ)+ni=1|θi|
  • 向损失函数添加 L2 正则项
    CJ(θ)+αL2=CJ(θ)+12ni=1θi2

3.3 scikit-learn 框架下的逻辑回归添加正则项

from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

def PolynomialLogisticRegression(degree,c,penalty = 'l2'): 
    return Pipeline([
        ('poly',PolynomialFeatures(degree=degree)),
        ('std_scaler',StandardScaler()),
        ('logistic_reg',LogisticRegression(solver= 'liblinear',C = c,penalty = penalty)) ### 参数C 指定正则化约束强度; 参数penalty 指定添加正则项的类别(L1,L2)
    ])
poly_log_reg = PolynomialLogisticRegression(degree= 20,c = .1,penalty='l1',)
poly_log_reg.fit(Train_X,Train_Y)
poly_log_reg.score(Test_X,Test_Y)
AI 代码解读

4、逻辑回归对多分类问题的解决方案

4.1 OvR (One vs Rest)

将多个类别每次选取一个类(One)设定为 1,其余类别((Rest))则设定为 0 ,从而转换为 多个二分类任务。这样对于 n 个类别就会创建 n 个分类模型,对新样例进行 n 个模型的预测,选择分类得分最高的作为新样例的分类。
缺点:时间复杂度高,效率低。

sklearn的逻辑回归 OvR 多分类支持

from sklearn.linear_model import LogisticRegression
OvR_logreg = LogisticRegression(multi_class='ovr')
AI 代码解读

4.2 OvO (One vs One)

将多个类别每次挑选其中两个类别构建一个二分类模型,这样对于数据集中的 n 个类别就会组合出C2n二分类模型,然后分别应用这些分类器对新样例进行预测,最后选择这 C2n 个分类器对 新样例 的预测结果中出现最多的类别作为新样例的分类。
优点:由于每个分类器都是对两个真实类比的比较,不像 OvR 任务中 Rest 部分存在混杂类别带来的干扰信息,因此 OvO 分类器更倾向于得到新样例的真实类别,也即分类准确度更高。
缺点:时间复杂度比 OvR 还高,效率低。

sklearn的逻辑回归 OvO 多分类支持

from sklearn.linear_model import LogisticRegression
OvO_logreg = LogisticRegression(multi_class='multinomial',solver="newton-cg")
AI 代码解读

4.3 sklearn 框架下转换二分类机为多分类器

### 创建逻辑回归二分类器
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression()

from sklearn.multiclass import OneVsOneClassifier
ovo = OneVsOneClassifier(log_reg) ### 封装逻辑回归二分类器为 ovo 多分类器
ovo.fit((Train_X,Train_Y)
ovo.score(Test_X,Test_Y)

from sklearn.multiclass import OneVsRestClassifier
ovr = OneVsRestClassifier(log_reg) ### 封装逻辑回归二分类器为 ovr 多分类器
ovr.fit((Train_X,Train_Y)
ovr.score(Test_X,Test_Y)
AI 代码解读
目录
打赏
0
0
0
0
186
分享
相关文章
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
168 8
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
498 6
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
158 6
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
1043 13
机器学习算法的优化与改进:提升模型性能的策略与方法
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
181 14
解锁机器学习的新维度:元学习的算法与应用探秘
元学习作为一个重要的研究领域,正逐渐在多个应用领域展现其潜力。通过理解和应用元学习的基本算法,研究者可以更好地解决在样本不足或任务快速变化的情况下的学习问题。随着研究的深入,元学习有望在人工智能的未来发展中发挥更大的作用。
|
7月前
|
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
208 2

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问