备案控制台

开发者社区开发与运维文章正文

7分钟搞懂逻辑回归的来龙去脉

2022-05-26 211

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 7分钟搞懂逻辑回归的来龙去脉

逻辑回归（Logistic Regression）是一种统计机器学习方法，简单易用，却涉及很多知识点。正所谓麻雀虽小，五脏俱全。

大多数教程都是从定义和原理出发，来讲解逻辑回归，容易显得晦涩难懂。本文将结合实例和图示，帮助读者在7分钟内搞懂逻辑回归算法。

1、功能

逻辑回归一般用于二分类任务，并能给出两个类的相应概率。

常见的应用包括垃圾邮件判别、银行判断是否给用户贷款等等。当然，二分类问题可以扩展到多分类问题。

做二分类任务，最简单的判别函数是阶跃函数，如下图红线所示。当时判断为正类（1），反之为负类（0）。

但阶跃函数不连续，过于“死板”，不便于后续求导优化。因此用logistic function（上图黑线）代替，因为呈现“S”形，也称为 sigmoid function，对应公式：

定义域为整个实数集合，值域为0～1，相当于概率值。

2、为何不叫逻辑分类？

既然是做分类任务，为什么不叫它“逻辑分类”呢？

首先，“逻辑”指的是“logistic”（音译），“回归”来源于线性回归的，使用线性回归去拟合逼近一个决策边界，使得按照这个边界进行数据分类后的总损失最小。

以概率0.5作为界线，将数据分为正例和反例。当，对应正例（趋近于概率1）；当，对应负例（趋近于概率0）。

这是在使用回归的思想去解决分类问题，所以称为逻辑回归。等价于在线性回归外包裹了一层sigmoid函数，将离散值映射为0和1之间的概率，以0.5为界。

3、核心问题

理解逻辑回归的一个核心问题是，如何求解决策边界 ?

对于二维输入样本点，z 等价于：

求最优决策边界，等价于求的值。当样本的真实标签是1和0时，我们分别定义一个损失函数：

以为例，当模型的预测值趋向1时，损失函数取值也应该越来越小；反之，当趋向0时，损失函数值越来越大，可以通过函数体现。模型的训练目的是尽可能减小损失，所以会让输出值朝着1的方向学习。是否可以将两类的cost函数合并到一块，方便计算总损失呢？

通过一个“聪明”的对数似然函数，我们达到了目的：

其中：

对于下图的样本点，绿线是决策边界。绿线上部，距离绿线越远越大，预测值越接近1。

看到这里，证明你也是一个热爱学习的人，希望你花1s点个赞，把这篇文章mark一下，再继续阅读，谢谢啦！

4、求解边界

明确了损失函数后，我们来计算模型参数的最优值。首先需要计算cost对参数的导数，再借助梯度下降等算法微调参数值，不断逼近最优解。

假设我们有10个样本点，每个样本包含3个特征，则维度为[10, 3]，维度为[3, 1]，

网络异常，图片无法展示

|

和

的维度为[10, 1]。

损失函数：

cost的维度也是[10, 1]。cost和H相关，H和Z相关，Z和WX相关，存在关系映射：cost~H~Z~X。根据链式求导法则，整个计算过程如下：

最终的结果是：，维度是[3, 1]，即参数。

5、梯度下降法

刚刚我们使用了梯度下降法迭代求解最优的，一共分为3步：

初始化
更新 :
迭代到一定次数或阈值，结束

当cost函数是凸函数时，可以保证cost降到全局最小，否则可能只走到局部最小。

在cost不断减小的过程中，将求得最优的分界线。

使用逻辑回归，我们可以使用python、C++等语言自己实现，或借助机器学习工具包Sklearn中的接口 LogisticRegression [2]。

现在，大家是不是理解了逻辑回归的思想呢？如有疑问，欢迎交流！

文章标签：

C++

Python

机器学习/深度学习

算法

游客6353rto7knxbm

目录

相关文章

游客zn7mvnkypuy76

|

5月前

一文搞懂：【时间序列分析】【1】

一文搞懂：【时间序列分析】【1】

游客zn7mvnkypuy76

41 0 0

小小何先生

|

机器学习/深度学习决策智能

什么是贝叶斯网络？原理入门

什么是贝叶斯网络？原理入门

小小何先生

304 0 0

小小杨树1

|

算法

动手撸个朴素贝叶斯算法bayes（离散数据）

动手撸个朴素贝叶斯算法bayes（离散数据）

小小杨树1

184 0 0

动手撸个朴素贝叶斯算法bayes（离散数据）

自由

|

算法

重温算法，加深理解

算法在开发中的地位我们都很清楚，但是呢实际上项目里用到的算法并不是很多，虽然不是必须但是我们还是要懂算法，理解算法，运用算法。前几年肝了很多算法，但是这玩意不经常练习就会忘记，今天就重新把算法捡起来吧。

自由

94 0 0

小数志

|

机器学习/深度学习人工智能算法

畅快！5000字通俗讲透决策树基本原理

在当今这个人工智能时代，似乎人人都或多或少听过机器学习算法；而在众多机器学习算法中，决策树则无疑是最重要的经典算法之一。这里，称其最重要的经典算法是因为以此为基础，诞生了一大批集成算法，包括Random Forest、Adaboost、GBDT、xgboost，lightgbm，其中xgboost和lightgbm更是当先炙手可热的大赛算法；而又称其为之一，则是出于严谨和低调。实际上，决策树算法也是个人最喜爱的算法之一（另一个是Naive Bayes），不仅出于其算法思想直观易懂（相较于SVM而言，简直好太多），更在于其较好的效果和巧妙的设计。似乎每个算法从业人员都会开一讲决策树专题，那么今天

小数志

302 0 0

畅快！5000字通俗讲透决策树基本原理

游客evyxm7zeaj4fw

|

机器学习/深度学习人工智能算法

终于有人把监督学习讲明白了

在机器学习的各种方法中，监督学习是迄今为止成果最令人印象深刻的一种。本文介绍监督学习解决像肺炎诊断这类问题的基本原理。

游客evyxm7zeaj4fw

208 0 0

那不行得加钱

|

算法 C++

再学一道算法题：人以群分

c++天梯赛算法题

那不行得加钱

125 0 0

码农工程师

|

机器学习/深度学习算法 Python

通俗易懂！白话朴素贝叶斯

通俗易懂！白话朴素贝叶斯

码农工程师

301 0 0

初商

|

算法机器学习/深度学习 BI

干货 | 关于机器学习的知识点，全在这篇文章里了

本文为大家介绍机器学习的魅力与可怕。

初商

3896 0 1

技术小能手

|

机器学习/深度学习

史上最全！27种神经网络简明图解：模型那么多，我该怎么选？

技术小能手

20583 2 5

热门文章

最新文章

Flutter之禅内存优化篇

《Cadence 16.6电路设计与仿真从入门到精通》——2.4 Design Entry CIS原理图图形界面　

记一次对网络抖动经典案例的分析

国外成人网站xHamster大量用户信息黑市变卖，部分账号涉及英美政府官员

用户密码以BCrypt加密的方式来防范被破解

带你理清CPU，cache和存储器之间的逻辑运作

Git设置代理服务器

【DSW Gallery】PAI-DSW开通及授权

吐血整理：机器学习的30个基本概念，都在这里了（手绘图解）

MOSS站点的迁移(备份还原)

设计模式之 5 大创建型模式，万字长文深剖，近 30 张图解！

《C++新特性：为多线程数据竞争检测与预防保驾护航》

Kotlin - 区间与数组

Kotlin - 参数与异常

Kotlin - 运算符与中缀表达式

Kotlin - 函数与Lambda表达式

Kotlin - 分支与循环

天气预报1天-中国气象局-地址查询版免费API接口教程

《C++智能合约与区块链底层交互全解析：构建坚实的去中心化应用桥梁》

相关课程

更多

机器学习入门-概念原理及常用算法

【算法实战】3. 决策树算法课程

【算法实战】9. 线性回归算法

【算法实战】5. Logistic回归算法

【算法实战】4. 朴素贝叶斯算法

【算法实战】8. 集成方法-Adaboost

相关电子书

更多

考察数据科学家支持向量机（SVM）知识的25道题，快来测测吧

典型模型-卷积神经网络入门从概念原理到应用实现

图解算法小抄

相关实验场景

更多

推荐系统入门之使用ALS算法实现打分预测

下一篇

阿里云OSS设置跨域访问