Logistic算法-阿里云开发者社区

Logistic算法

2024-06-11 62

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Logistic算法

谷歌笔记本（可选）

from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/drive

Logistic回归

优点：计算代价不高，易于理解和实现
缺点：容易欠拟合，分类精度可能不高
适用数据类型：数值型和标称型数据

Sigmoid函数

训练算法：使用梯度上升找到最佳参数

def loadDataSet():
  dataMat = []
  labelMat = []
  fr = open('/content/drive/MyDrive/Colab Notebooks/MachineLearning/《机器学习实战》/Logistic回归/Logistic回归/testSet.txt')
  for line in fr.readlines():
    lineArr = line.strip().split()
    dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
    labelMat.append(int(lineArr[2]))
  return dataMat, labelMat

from math import *
def sigmoid(inX):
  return 1.0/(1+exp(-inX))

from numpy import *
def gradAscent(dataMatIn, classLabels):
  dataMatrix = mat(dataMatIn)
  labelMat = mat(classLabels).transpose()
  m, n = shape(dataMatrix)
  alpha = 0.001
  maxCycles = 500
  weights = ones((n, 1))
  for k in range(maxCycles):
    h = sigmoid(dataMatrix * weights)
    error = (labelMat - h)
    weights = weights + alpha * dataMatrix.transpose() * error
  return weights

这是一个使用梯度上升算法进行逻辑回归的函数。主要步骤如下：

导入numpy库，用于矩阵运算。
定义函数gradAscent，接受输入参数dataMatIn和classLabels。
将dataMatIn和classLabels转化为矩阵，并进行转置，得到dataMatrix和labelMat。
获取dataMatrix的行数m和列数n。
设置学习率alpha为0.001，并设定最大迭代次数maxCycles为500。
初始化权重weights为全1的n行1列矩阵。
进行maxCycles次迭代：

a. 计算当前权重对应的预测结果h，通过sigmoid函数将dataMatrix与weights相乘得到。

b. 计算误差error，即真实标签labelMat与预测结果h的差。

c. 更新权重weights，通过乘以学习率alpha，再乘以dataMatrix的转置，再乘以误差error。

8.返回最终的权重weights。

总结：该函数通过梯度上升算法求解逻辑回归模型的权重参数，其中使用了sigmoid函数作为激活函数，并通过迭代优化权重参数，使得模型的预测结果与真实标签尽可能接近。最终返回的权重参数可以用于预测新的数据样本的类别。

dataArr, labelMat = loadDataSet()

weights = gradAscent(dataArr, labelMat)

分析数据：画出决策边界

import matplotlib.pyplot as plt
def plotBestFit(weights):
  dataMat, labelMat = loadDataSet()
  dataArr = array(dataMat)
  n = shape(dataArr)[0]
  xcord1 = []
  ycord1 = []
  xcord2 = []
  ycord2 = []
  for i in range(n):
    if int(labelMat[i]) == 1:
      xcord1.append(dataArr[i,1])
      ycord1.append(dataArr[i,2])
    else:
      xcord2.append(dataArr[i,1])
      ycord2.append(dataArr[i,2])
  fig = plt.figure()
  ax = fig.add_subplot(111)
  ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
  ax.scatter(xcord2, ycord2, s=30, c='green')
  x = arange(-3, 3, 0.1)
  y = (-weights[0]-weights[1]*x) / weights[2]
  ax.plot(x, y)
  plt.xlabel('X1')
  plt.ylabel('X2')
  plt.show()

plotBestFit(weights.getA())

训练算法：随机梯度上升

def stocGradAscent0(dataMatrix, classLabels):
  m, n = shape(dataMatrix)
  alpha = 0.01
  weights = ones(n)
  for i in range(m):
    h = sigmoid(sum(dataMatrix[i] * weights))
    error = classLabels[i] - h
    weights = weights + alpha * error * dataMatrix[i]
  return weights

dataArr, labelMat = loadDataSet()
weights = stocGradAscent0(array(dataArr), labelMat)

改进算法：优化梯度算法

def stocGradAscent1(dataMatrix, classLabels, numIter=150):
  m, n = shape(dataMatrix)
  weights = ones(n)
  for j in range(numIter):
    dataIndex = list(range(m))
    for i in range(m):
      alpha = 4/(1+j+i)+0.01
      randIndex = int(random.uniform(0, len(dataIndex)))
      h = sigmoid(sum(dataMatrix[randIndex] * weights))
      error = classLabels[randIndex] - h
      weights = weights + alpha * error * dataMatrix[randIndex]
      del(dataIndex[randIndex])
  return weights

这段代码实现了逻辑回归的随机梯度上升算法。逻辑回归是一种二分类的机器学习算法，用于预测二分类问题的结果。该算法通过最大化似然函数来更新权重，从而使得模型的预测结果与实际结果最接近。

算法的输入包括数据集的特征矩阵(dataMatrix)、数据集的标签(classLabels)和迭代次数(numIter)，默认为150次。其中，特征矩阵是一个m行n列的矩阵，m表示样本的数量，n表示特征的数量；标签是一个长度为m的向量，表示每个样本的分类标签。

算法的输出是更新后的权重(weights)，这些权重用于预测新样本的分类结果。

算法的主要步骤如下：

1.初始化权重为一个长度为n的向量，每个元素的初始值为1。

2.对于给定的迭代次数，重复以下步骤：

a. 初始化一个包含样本索引的列表(dataIndex)。

b. 对于每个样本，重复以下步骤：

i. 计算学习率(alpha)，其中alpha的值随着迭代次数和样本的索引i和j的变化而变化。这里使用的是固定的学习率，并加上一个小的常数以避免除零错误。

ii. 从dataIndex中随机选择一个样本的索引(randIndex)。

iii. 计算样本的预测概率(h)。这里使用的是sigmoid函数将线性组合转换为[0, 1]之间的概率值。

iv. 计算误差(error)，即实际标签(classLabels)与预测概率(h)之间的差值。

v. 更新权重(weights)。根据梯度上升算法，使用学习率(alpha)乘以误差(error)乘以样本的特征值(dataMatrix[randIndex])，然后将得到的结果加到权重(weights)上。

vi. 从dataIndex中删除已经使用过的样本索引(randIndex)。

3.返回更新后的权重。

该算法每次迭代都使用一个随机的样本来更新权重，因此被称为随机梯度上升算法。相比于批量梯度上升算法，随机梯度上升算法的计算效率更高，但收敛速度较慢，并且对于噪声数据更敏感。

dataArr, labelMat = loadDataSet()
weights = stocGradAscent1(array(dataArr), labelMat, 500)
plotBestFit(weights)

Logistic算法

谷歌笔记本（可选）

Logistic回归

Sigmoid函数

训练算法：使用梯度上升找到最佳参数

分析数据：画出决策边界

训练算法：随机梯度上升

改进算法：优化梯度算法

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Logistic算法

谷歌笔记本（可选）

Logistic回归

Sigmoid函数

训练算法：使用梯度上升找到最佳参数

分析数据：画出决策边界

训练算法：随机梯度上升

改进算法：优化梯度算法

热门文章

最新文章

相关课程

相关电子书

相关实验场景