机器学习实战之Logistic回归-阿里云开发者社区

机器学习实战之Logistic回归

2019-02-14 1156

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本系列教程特点：基于《机器学习实战》尽量避免讲太多数学公式，通过简单直白的方式讲解各算法的原理对于算法实现的代码进行详细讲解哪些读者可以食用：了解机器学习的基本术语会Python语言会numpy和pandas库的使用写在前面 Logistic回归涉及到高等数学，线性代数，概率论，优化问题。

本文来自云栖社区官方钉群“Python技术进阶”，了解相关信息可以关注“Python技术进阶”。

本系列教程特点：

基于《机器学习实战》
d47e62d2b349aca45e42305ed6714efbe5ed61d9

尽量避免讲太多数学公式，通过简单直白的方式讲解各算法的原理
d47e62d2b349aca45e42305ed6714efbe5ed61d9

对于算法实现的代码进行详细讲解

哪些读者可以食用：

了解机器学习的基本术语
d47e62d2b349aca45e42305ed6714efbe5ed61d9

会Python语言

d47e62d2b349aca45e42305ed6714efbe5ed61d9 会numpy和pandas库的使用

写在前面

Logistic回归涉及到高等数学，线性代数，概率论，优化问题。本文尽量以最简单易懂的叙述方式，以少讲公式原理，多讲形象化案例为原则，给读者讲懂Logistic回归。如对数学公式过敏，引发不适，后果自负。

Logistic回归原理与推导

Logistic回归中虽然有回归的字样，但该算法是一个分类算法，如图所示，有两类数据（红点和绿点）分布如下，如果需要对两类数据进行分类，我们可以通过一条直线进行划分（w0 * x0 + w1 * x1+w2 * x2）。当新的样本（x1,x2）需要预测时，带入直线函数中，函数值大于0，则为绿色样本（正样本），否则为红样本（负样本）。推广到高维空间中，我们需要得到一个超平面（在二维是直线，在三维是平面，在n维是n-1的超平面）切分我们的样本数据，实际上也就是求该超平面的W参数，这很类似于回归，所以取名为Logistic回归。

35a5367fc191073213bc9d98571855ecf99ece69

sigmoid函数

当然，我们不直接使用z函数，我们需要把z值转换到区间[0-1]之间，转换的z值就是判断新样本属于正样本的概率大小。我们使用sigmoid函数完成这个转换过程，公式如下。通过观察sigmoid函数图，如图所示，当z值大于0时，σ值大于0.5，当z值小于0时，σ值小于于0.5。利用sigmoid函数，使得Logistic回归本质上是一个基于条件概率的判别模型。

目标函数

其实，我们现在就是求W，如何求W呢，我们先看下图，我们都能看出第二个图的直线切分的最好，换句话说，能让这些样本点离直线越远越好，这样对于新样本的到来，也具有很好的划分，那如何用公式表示并计算这个目标函数呢？

bdef169943a4d23959cff8300f3fa4f50cb7adcd

我们把sigmoid公式应用到z函数中：

eb2e55f9f680c8cb142c452aa7ec28a59ab2f6b2

通过条件概率可推出下面公式，对公式进行整合为一个，见下。

5102687f807aa0a149566909689b96de27bcf94e

假定样本与样本之间相互独立，那么整个样本集生成的概率即为所有样本生成概率的乘积：

26cb37408ea264bcd8e17ef7aeb5e069685f266d

这个公式过于复杂，不太容易求导，这里通过log转换：

7ecb3c69fc635aa36d163996c070724deb3f21d4

这时就需要这个目标函数的值最大，以此求出θ。

梯度上升法

在介绍梯度上升法之前，我们看一个中学知识：求下面函数在x等于多少时，取最大值。

997bcf4154a5906e7c4fc62812804c9b04a94555

函数图：

97b7f646ac7251cfaed8c44afca91572343848cb

解：求f(x)的导数：2x，令其为0，求得x=0时，取最大值为0。但在函数复杂时，求出导数也很难计算函数的极值，这时就需要使用梯度上升法，通过迭代，一步步逼近极值，公式如下，我们顺着导数的方向（梯度）一步步逼近。

e980bf63705ddcf06284f700bbdeeef8cb864c25

利用梯度算法计算该函数的x值：

 def f(x_old):

  return -2*x_old

def cal():

  x_new = -6

x_old = 0 eps = 0.01

  while abs(x_new-x_old)>presision:

presision = 0.00001 x_old=x_new

 -0.0004892181072978443

x_new=x_old+eps*f(x_old) return x_new

目标函数求解

这里，我们对函数求偏导，得到迭代公式如下：

f4a97b4a97fbe7bb818252c2c777d884e3a548e0

Logistic回归实践

数据情况

读入数据，并绘图显示：

def loadDataSet():

dataMat = [];labelMat = []

fr = open('数据/Logistic/TestSet.txt')

for line in fr.readlines():

dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])

lineArr = line.strip().split()

return dataMat, labelMat

labelMat.append(int(lineArr[2]))

训练算法

利用梯度迭代公式，计算W：

def sigmoid(inX):

return 1.0/(1 + np.exp(-inX))

def gradAscent(dataMatIn, labelMatIn):

dataMatrix = np.mat(dataMatIn)

labelMat = np.mat(labelMatIn).transpose()

m,n = np.shape(dataMatrix) alpha = 0.001 maxCycles = 500

h = sigmoid(dataMatrix * weights)

weights = np.ones((n,1)) for k in range(maxCycles): error = labelMat - h

return weights

weights = weights + alpha * dataMatrix.transpose() * error

通过计算的weights绘图，查看分类结果：

18b9e2df9135a435347e939119d3743ead3a3a02

算法优缺点

优点：易于理解和计算
缺点：精度不高

原文发布时间为：2018-06-23

本文作者：罗罗攀

本文来自云栖社区官方钉群“ Python技术进阶”，了解相关信息可以关注 “ Python技术进阶 ”
Python技术进阶交流群

b8b9a7a5741b3f7fc6d1f3bf7f13c9abfe906266

机器学习实战之Logistic回归

本文来自云栖社区官方钉群“Python技术进阶”，了解相关信息可以关注“Python技术进阶”。

本系列教程特点：

哪些读者可以食用：

Python技术进阶

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

机器学习实战之Logistic回归

本文来自云栖社区官方钉群“Python技术进阶”，了解相关信息可以关注“Python技术进阶”。

本系列教程特点：

哪些读者可以食用：

Python技术进阶

热门文章

最新文章

相关课程

相关电子书

相关实验场景