线性回归算法推导与实战（一）

2022-09-02 184

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文属于线性回归算法【AIoT阶段三】（尚未更新），这里截取自其中一段内容，方便读者理解和根据需求快速阅读。本文通过公式推导+代码两个方面同时进行，因为涉及到代码的编译运行，如果你没有NumPy，Pandas，Matplotlib的基础，建议先修文章：数据分析三剑客【AIoT阶段一（下）】（十万字博文保姆级讲解）

前言

本文属于 线性回归算法【AIoT阶段三】（尚未更新），这里截取自其中一段内容，方便读者理解和根据需求快速阅读。本文通过公式推导+代码两个方面同时进行，因为涉及到代码的编译运行，如果你没有NumPy，Pandas，Matplotlib的基础，建议先修文章：数据分析三剑客【AIoT阶段一（下）】（十万字博文保姆级讲解）

1.线性回归算法推导

1.1 深入理解回归

🚩回归简单来说就是 “回归平均值”(regression to the mean）。但是这里的 mean 并不是把历史数据直接当成未来的预测值，而是会把期望值当作预测值。追根溯源回归这个词是一个叫高尔顿的人发明的，他通过大量观察数据发现:父亲比较高，儿子也比较高；父亲比较矮，那么儿子也比较矮！正所谓 “龙生龙凤生凤老鼠的儿子会打洞” 但是会存在一定偏差~

父亲是 1.98 ，儿子肯定很高，但有可能不会达到 1.98

父亲是 1.69 ，儿子肯定不高，但是有可能比 1.69 高

大自然让我们回归到一定的区间之内，这就是大自然神奇的力量。

高尔顿是谁?达尔文的表弟，这下可以相信他说的十有八九是对的了吧！

人类社会很多事情都被大自然这种神奇的力量只配置：身高、体重、智商、相貌……

这种神秘的力量就叫正态分布。大数学家高斯，深入研究了正态分布，最终推导出了线性回归的原理：最小二乘法！

1.2 误差分析

1.3 最大似然估计

🚩最大似然估计 (maximum likelihood estimation,MLE)一种重要而普遍的求估计量的方法。最大似然估计明确地使用概率模型，其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然估计是一类完全基于统计的系统发生树重建方法的代表。

是不是，有点看不懂，太学术了，我们举例说明~

假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道罐中白球和黑球的比例，但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？

🌟请告诉我答案！

很多小伙伴，甚至不用算，凭感觉，就能给出答案：70%！

下面是详细推导过程：

1.4 高斯分布-概率密度函数

🚩最常见的连续概率分布是正态分布，也叫高斯分布，而这正是我们所需要的，其概率密度函数如下:

公式如下：

随着参数 μ 和 σ 变化，概率分布也产生变化。下面重要的步骤来了，我们要把一组数据误差出现的总似然，也就是一组数据之所以对应误差出现的整体可能性表达出来了，因为数据的误差我们假设服从一个高斯分布，并且通过截距项来平移整体分布的位置从而使得 μ = 0 μ=0μ=0，所以样本的误差我们可以表达其概率密度函数的值如下:

简化如下：

1.5 误差总似然

🚩和前面黑球白球问题类似，也是一个累乘问题~

现在问题，就变换成了，求最大似然问题了！不过，等等~

累乘的最大似然，求解是非常麻烦的！

接下来，我们通过：求对数把累乘问题，转变为累加问题（加法问题，无论多复杂，都难不倒我了！）

1.6 最小二乘法MSE

根据对数的单调性，对上面公式求自然底数e的对数，效果不变~

接下来log 函数继续为你带来惊喜，数学上连乘是个大麻烦，即使交给计算机去求解它也得哭出声来。惊喜是:

累乘问题变成累加问题~

乘风破浪，继续推导 ⟶

1.7 归纳总结升华

🚩这种最小二乘法估计，其实我们就可以认为，假定了误差服从正太分布，认为样本误差的出现是随机的，独立的，使用最大似然估计思想，利用损失函数最小化 MSE 就能求出最优解！所以反过来说，如果我们的数据误差不是互相独立的，或者不是随机出现的，那么就不适合去假设为正太分布，就不能去用正太分布的概率密度函数带入到总似然的函数中，故而就不能用 MSE 作为损失函数去求解最优解了！所以，最小二乘法不是万能的~

还有譬如假设误差服从泊松分布，或其他分布那就得用其他分布的概率密度函数去推导出损失函数了。

所以有时我们也可以把线性回归看成是广义线性回归。比如，逻辑回归，泊松回归都属于广义线性回归的一种，这里我们线性回归可以说是最小二乘线性回归。

线性回归算法推导与实战（一）

前言

1.线性回归算法推导

1.1 深入理解回归

1.2 误差分析

1.3 最大似然估计

1.4 高斯分布-概率密度函数

1.5 误差总似然

1.6 最小二乘法MSE

1.7 归纳总结升华

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

线性回归算法推导与实战（一）

前言

1.线性回归算法推导

1.1 深入理解回归

1.2 误差分析

1.3 最大似然估计

1.4 高斯分布-概率密度函数

1.5 误差总似然

1.6 最小二乘法MSE

1.7 归纳总结升华

热门文章

最新文章

相关课程

相关电子书

相关实验场景