机器学习实战之Logistic回归

简介:

本系列教程特点:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 基于《机器学习实战》
d47e62d2b349aca45e42305ed6714efbe5ed61d9 尽量避免讲太多数学公式,通过简单直白的方式讲解各算法的原理
d47e62d2b349aca45e42305ed6714efbe5ed61d9 对于算法实现的代码进行详细讲解

哪些读者可以食用:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 了解机器学习的基本术语
d47e62d2b349aca45e42305ed6714efbe5ed61d9 会Python语言

d47e62d2b349aca45e42305ed6714efbe5ed61d9会numpy和pandas库的使用

写在前面

Logistic回归涉及到高等数学,线性代数,概率论,优化问题。本文尽量以最简单易懂的叙述方式,以少讲公式原理,多讲形象化案例为原则,给读者讲懂Logistic回归。如对数学公式过敏,引发不适,后果自负。

Logistic回归原理与推导

Logistic回归中虽然有回归的字样,但该算法是一个分类算法,如图所示,有两类数据(红点和绿点)分布如下,如果需要对两类数据进行分类,我们可以通过一条直线进行划分(w0 * x0 + w1 * x1+w2 * x2)。当新的样本(x1,x2)需要预测时,带入直线函数中,函数值大于0,则为绿色样本(正样本),否则为红样本(负样本)。 推广到高维空间中,我们需要得到一个超平面(在二维是直线,在三维是平面,在n维是n-1的超平面)切分我们的样本数据,实际上也就是求该超平面的W参数,这很类似于回归,所以取名为Logistic回归。

35a5367fc191073213bc9d98571855ecf99ece69

sigmoid函数

当然,我们不直接使用z函数,我们需要把z值转换到区间[0-1]之间,转换的z值就是判断新样本属于正样本的概率大小。我们使用sigmoid函数完成这个转换过程,公式如下。通过观察sigmoid函数图,如图所示,当z值大于0时,σ值大于0.5,当z值小于0时,σ值小于于0.5。利用sigmoid函数,使得Logistic回归本质上是一个基于条件概率的判别模型。

09ea1a46968957ab886d91791ddbead04f613142

目标函数

其实,我们现在就是求W,如何求W呢,我们先看下图,我们都能看出第二个图的直线切分的最好,换句话说,能让这些样本点离直线越远越好,这样对于新样本的到来,也具有很好的划分,那如何用公式表示并计算这个目标函数呢?

bdef169943a4d23959cff8300f3fa4f50cb7adcd

我们把sigmoid公式应用到z函数中:

eb2e55f9f680c8cb142c452aa7ec28a59ab2f6b2

通过条件概率可推出下面公式,对公式进行整合为一个,见下。

5102687f807aa0a149566909689b96de27bcf94e

假定样本与样本之间相互独立,那么整个样本集生成的概率即为所有样本生成概率的乘积:

26cb37408ea264bcd8e17ef7aeb5e069685f266d

这个公式过于复杂,不太容易求导,这里通过log转换:

7ecb3c69fc635aa36d163996c070724deb3f21d4

这时就需要这个目标函数的值最大,以此求出θ。

梯度上升法

在介绍梯度上升法之前,我们看一个中学知识:求下面函数在x等于多少时,取最大值。

997bcf4154a5906e7c4fc62812804c9b04a94555

函数图:

97b7f646ac7251cfaed8c44afca91572343848cb

解:求f(x)的导数:2x,令其为0,求得x=0时,取最大值为0。但在函数复杂时,求出导数也很难计算函数的极值,这时就需要使用梯度上升法,通过迭代,一步步逼近极值,公式如下,我们顺着导数的方向(梯度)一步步逼近。

e980bf63705ddcf06284f700bbdeeef8cb864c25

利用梯度算法计算该函数的x值:


def f(x_old):
return -2*x_old
def cal():
x_new = -6
x_old = 0 eps = 0.01
while abs(x_new-x_old)>presision:
presision = 0.00001 x_old=x_new
-0.0004892181072978443
x_new=x_old+eps*f(x_old) return x_new

目标函数求解

这里,我们对函数求偏导,得到迭代公式如下:

f4a97b4a97fbe7bb818252c2c777d884e3a548e0

Logistic回归实践

数据情况

读入数据,并绘图显示:


def loadDataSet():
dataMat = [];labelMat = []
fr = open('数据/Logistic/TestSet.txt')
for line in fr.readlines():
dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
lineArr = line.strip().split()
return dataMat, labelMat
labelMat.append(int(lineArr[2]))

010bab3fea81526f6287111aa7c22bcd9b2949b9
训练算法

利用梯度迭代公式,计算W:


def sigmoid(inX):
return 1.0/(1 + np.exp(-inX))
def gradAscent(dataMatIn, labelMatIn):
dataMatrix = np.mat(dataMatIn)
labelMat = np.mat(labelMatIn).transpose()
m,n = np.shape(dataMatrix) alpha = 0.001 maxCycles = 500
h = sigmoid(dataMatrix * weights)
weights = np.ones((n,1)) for k in range(maxCycles): error = labelMat - h
return weights
weights = weights + alpha * dataMatrix.transpose() * error

通过计算的weights绘图,查看分类结果:

18b9e2df9135a435347e939119d3743ead3a3a02

算法优缺点

  • 优点:易于理解和计算

  • 缺点:精度不高


原文发布时间为:2018-06-23
本文作者:罗罗攀
本文来自云栖社区合作伙伴“ Python爱好者社区”,了解相关信息可以关注“ Python爱好者社区”。
相关文章
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
1月前
|
机器学习/深度学习 TensorFlow API
机器学习实战:TensorFlow在图像识别中的应用探索
【10月更文挑战第28天】随着深度学习技术的发展,图像识别取得了显著进步。TensorFlow作为Google开源的机器学习框架,凭借其强大的功能和灵活的API,在图像识别任务中广泛应用。本文通过实战案例,探讨TensorFlow在图像识别中的优势与挑战,展示如何使用TensorFlow构建和训练卷积神经网络(CNN),并评估模型的性能。尽管面临学习曲线和资源消耗等挑战,TensorFlow仍展现出广阔的应用前景。
67 5
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
基于TensorFlow的深度学习模型训练与优化实战
基于TensorFlow的深度学习模型训练与优化实战
92 0
|
1月前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
50 0
|
2月前
|
机器学习/深度学习 人工智能 算法
揭开深度学习与传统机器学习的神秘面纱:从理论差异到实战代码详解两者间的选择与应用策略全面解析
【10月更文挑战第10天】本文探讨了深度学习与传统机器学习的区别,通过图像识别和语音处理等领域的应用案例,展示了深度学习在自动特征学习和处理大规模数据方面的优势。文中还提供了一个Python代码示例,使用TensorFlow构建多层感知器(MLP)并与Scikit-learn中的逻辑回归模型进行对比,进一步说明了两者的不同特点。
104 2
|
2月前
|
机器学习/深度学习 数据挖掘 Serverless
手把手教你全面评估机器学习模型性能:从选择正确评价指标到使用Python与Scikit-learn进行实战演练的详细指南
【10月更文挑战第10天】评估机器学习模型性能是开发流程的关键,涉及准确性、可解释性、运行速度等多方面考量。不同任务(如分类、回归)采用不同评价指标,如准确率、F1分数、MSE等。示例代码展示了使用Scikit-learn库评估逻辑回归模型的过程,包括数据准备、模型训练、性能评估及交叉验证。
133 1
|
2月前
|
机器学习/深度学习 算法 数据挖掘
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧1
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
67 5
|
2月前
|
机器学习/深度学习 数据采集 分布式计算
【Python篇】深入机器学习核心:XGBoost 从入门到实战
【Python篇】深入机器学习核心:XGBoost 从入门到实战
202 3
|
2月前
|
机器学习/深度学习 算法 数据可视化
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧2
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
47 1
|
2月前
|
数据采集 机器学习/深度学习 TensorFlow
声纹识别实战:从数据采集到模型训练
【10月更文挑战第16天】声纹识别技术通过分析个人的语音特征来验证其身份,具有无接触、便捷的特点。本文将带你从零开始,一步步完成声纹识别系统的构建,包括数据采集、音频预处理、特征提取、模型训练及评估等关键步骤。我们将使用Python语言和相关的科学计算库来进行实践。
419 0