对数几率回归

简介: 对数几率回归

对数几率回归(Logistic Regression)

对数几率回归,又称逻辑回归(尽管名称中包含“回归”,但实际上是种分类算法),是一种基于广义线性模型的统计方法,主要用于解决二分类问题。以下是对数几率回归的主要概念、工作原理、以及相关应用的详细说明。

基本概念

对数几率回归通过建立一个线性模型来预测事件发生的概率,即给定输入特征 ( \mathbf{x} ),估计样本属于某个类别的概率 ( P(y=1 \mid \mathbf{x}) )。这里的类别通常只有两种:正类(( y=1 ))和负类(( y=0 ))。对数几率(Log-odds)是概率 ( p=P(y=1 \mid \mathbf{x}) ) 与其对立概率 ( q=1-p=P(y=0 \mid \mathbf{x}) ) 的比值的对数:

$$ \text{log-odds} = \log{\left(\frac{P(y=1 \mid \mathbf{x})}{P(y=0 \mid \mathbf{x})}\right)} = \log{\left(\frac{p}{q}\right)} $$

对数几率回归模型假设对数几率与特征向量 ( \mathbf{x} ) 之间的关系是线性的:

$$ \text{log-odds} = \mathbf{w}^T\mathbf{x} + b $$

其中,( \mathbf{w} ) 是权重向量,( b ) 是偏置项。这个线性组合被转换为概率 ( p ) 通过应用sigmoid函数(或逻辑函数):

$$ P(y=1 \mid \mathbf{x}) = p = \sigma(\mathbf{w}^T\mathbf{x} + b) = \frac{1}{1 + e^{-(\mathbf{w}^T\mathbf{x} + b)}} $$

工作原理

模型训练

对数几率回归模型的训练过程涉及以下步骤:

目标函数设定

模型的目标是找到使得数据集上对数似然函数最大的参数 ( \mathbf{w} ) 和 ( b ):

$$ \ell(\mathbf{w}, b) = \sum_{i=1}^{N} \log{P(y_i \mid \mathbf{x}_i; \mathbf{w}, b)} $$

其中,( N ) 是样本数量,( \log{P(y_i \mid \mathbf{x}_i; \mathbf{w}, b)} ) 是第 ( i ) 个样本的对数似然。由于模型使用sigmoid函数,目标函数实际上是一个交叉熵损失函数的负值。

优化算法

通过梯度下降、牛顿法、拟牛顿法、坐标下降等优化算法求解目标函数的最大值(或等价地,最小化负对数似然)。在优化过程中,模型参数 ( \mathbf{w} ) 和 ( b ) 逐步更新,以减小预测概率与实际标签之间的差距。

正则化

为了避免过拟合,可以在目标函数中加入正则化项(如L1或L2正则化),以约束模型参数的大小:

  • L1正则化:( \lambda ||\mathbf{w}||_1 )
  • L2正则化:( \frac{\lambda}{2} ||\mathbf{w}||_2^2 )

其中,( \lambda ) 是正则化强度参数。

预测与决策

训练完成后,模型可以对新样本进行分类预测:

概率预测

给定特征向量 ( \mathbf{x} ),计算其属于正类的概率 ( P(y=1 \mid \mathbf{x}) ):

$$ P(y=1 \mid \mathbf{x}; \hat{\mathbf{w}}, \hat{b}) = \sigma(\hat{\mathbf{w}}^T\mathbf{x} + \hat{b}) $$

其中,( \hat{\mathbf{w}} ) 和 ( \hat{b} ) 是已训练好的最优参数。

类别决策

通常设置一个阈值(如0.5),若 ( P(y=1 \mid \mathbf{x}) \geq \text{threshold} ),则预测样本为正类;否则预测为负类。阈值可以根据实际需求调整以优化分类性能指标(如精度、召回率、F1分数等)。

应用与优势

对数几率回归广泛应用于各种领域,包括但不限于:

  • 医学诊断:预测患者是否患有某种疾病。
  • 信用评分:评估贷款申请人的信用风险。
  • 市场营销:预测用户是否会响应特定的营销活动。
  • 图像识别:在简单的图像分类任务中,如识别像素区域是否包含特定对象。

对数几率回归的主要优势包括:

  • 解释性好:权重向量 ( \mathbf{w} ) 直接反映了各个特征对分类结果的影响,有助于理解模型决策依据。
  • 计算效率高:训练和预测过程相对快速,尤其对于大规模数据集,可以通过高效的矩阵运算实现。
  • 易于实现:大多数编程语言和机器学习库都提供了现成的对数几率回归实现。
  • 稳健性:模型相对稳定,对离群值不敏感,且可通过正则化避免过拟合。

扩展与变体

  • 多类别逻辑回归:通过一对多(one-vs-all, OvA)或一对一(one-vs-one, OvO)策略扩展到多类别分类任务。
  • Softmax回归:在多类别分类中,softmax函数代替sigmoid函数,输出多类别概率分布。
  • 多项逻辑回归:处理多标签分类问题,每个标签独立进行二分类。

综上所述,对数几率回归是一种基于线性模型和sigmoid函数的二分类方法,通过最大化对数似然函数来估计样本属于某一类别的概率,并通过设定阈值进行类别决策。其简单、高效、可解释性强的特点使其在诸多实际应用中占据重要地位。

目录
相关文章
|
7月前
|
大数据
stata具有异方差误差的区间回归
stata具有异方差误差的区间回归
|
7月前
|
数据采集
R语言用线性模型进行臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
R语言用线性模型进行臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
|
数据可视化 Python
概率学中的随机变量与分布
概率学中的随机变量与分布
概率学中的随机变量与分布
【概率論】常用專業名詞中韓對照表 | 확률론 한중 번역표
【概率論】常用專業名詞中韓對照表 | 확률론 한중 번역표
70 0
14 棣莫弗的二项概率逼近
14 棣莫弗的二项概率逼近
73 0
第8章 概率统计——8.3 累积概率分布
第8章 概率统计——8.3 累积概率分布
第8章 概率统计——8.3 累积概率分布
(一)探索随机变量及其分布:概率世界的魔法
(一)探索随机变量及其分布:概率世界的魔法
R-ggpmisc|回归曲线添加回归方程,R2,方差表,香不香?
R-ggpmisc|回归曲线添加回归方程,R2,方差表,香不香?
109 0
|
机器学习/深度学习
概率和似然
在日常生活中,我们经常使用这些术语。但是在统计学和机器学习上下文中使用时,有一个本质的区别。本文将用理论和例子来解释概率和似然之间的关键区别。
144 0
概率和似然
|
机器学习/深度学习
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计
212 0
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计