轻松玩转 Scikit-Learn 系列 —— 逻辑回归是回归？-阿里云开发者社区

轻松玩转 Scikit-Learn 系列 —— 逻辑回归是回归？

2022-02-18 158

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 逻辑回归，咋一听这名字，真的跟一个正儿八经的回归模型似的，实际上从原理上讲他是一个如假包换的分类器，英文名是 Logistics regression，也叫 logit regression，maximum-entropy classification，或者 log-linear classifier。

前言

逻辑回归，咋一听这名字，真的跟一个正儿八经的回归模型似的，实际上从原理上讲他是一个如假包换的分类器，英文名是 Logistics regression，也叫 logit regression，maximum-entropy classification，或者 log-linear classifier。

在逻辑回归中，会将样本的所有特征与样本属于某个种类的概率联系起来，即使每个特征都对应一个模型参数，通过训练不断修正模型参数，最后使用 logistic function （也叫 sigmoid 函数，该函数使输入从（-inf, inf）映射到输出（0，1），其图形如下）建模求出样本属于某个种类的概率。

下图是 Kaggle 上出现的统计在各个行业使用机器学习方法的使用率的情况。从图中可以看出，逻辑回归以领先第二名13.6%的绝对优势牢牢地占据了第一位。逻辑回归之所以能够坚挺在 C 位，绝对有与之相匹配的实力，我们会在代码实战中看到相关证明。

在 scikit-learn 中封装的逻辑回归，可以用来解决二分类和基于 OvR 和 OvO 的多分类问题。逻辑回归的损失函数是一个凸函数，存在全局最优解，为避免模型过拟合，常需要对模型进行正则化。所以，scikit-learn 中逻辑回归的实现的损失函数常加有惩罚项来对模型正则化。加上 L1 正则化项的损失函数为：