线性回归(Linear regression)算法

简介: 属于有监督学习、判别模型、有预测函数、有优化目标,有优化求解算法

归类:属于有监督学习判别模型、有预测函数、有优化目标,有优化求解算法

应用:股票价格预测(依据过去的数据预测将来的状态)

分类:

回归按照输入变量的个数可分为:一元回归和多元回归

按照输入变量和输出变量的关系可分为:线性回归和非线性回归

回归可称为函数的拟合:选择一条函数曲线能很好的拟合过去的数据并且能够预测将来的数据

回归:用观察使认知接近真值的过程,回归本源。参考:各种回归都是什么意思http://blog.sina.com.cn/s/blog_7445c2940102wln5.html

一、线性回归(Linear regression)

   利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。

  其中的最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。来自维基百科最小二乘

线性回归的适用情况

(1)线性 Linearity

因变量和每个自变量都是线性关系。

(2)独立性Indpendence

对于所有的观测值,它们的误差项相互之间是独立的。

(3) 正态性Normality

误差项服从正态分布。(通过正态分布可以导出损失函数表达式)

(4)等方差Equal-variance

所有的误差项具有同样方差。

基本原理及公式推导:

  •    输入数据 X(特征数) ,输出数据Y,参数

   给定一个数据集(X,Y),尽可能的学得一个线性模型h()对新的数据xi预测出f(xi),使得h(xi)尽可能的逼近真实值yi。

引入损失函数(均方误差)

其中损失函数,也即是描述不好的程度。也就是损失函数越小则越逼近真实值。也可称这个函数为J函数

具体过程为:

模型表示:


向量形式表示:


损失函数:

通过求解损失函数(均方误差)最小求得参数的过程。

其中参数的求解方法有两种:最小二乘和梯度下降还有一种是正则化项

1.考虑x为单个特征情况:

x只有一个特征变量。

(1)引入均方误差度量方式,也即是相当于平方损失

65e68074bd9dd130f1e57f247c55ac3c_20190105211006967.png

基于上述的均方误差最小求解模型的方法也称为最小二乘法。(西瓜书解释)

2)求偏导

3)令偏导为零获得闭式解

考虑x为多个特征情况(也称为多元回归)

b947bb9500429710901aa8aa7f522bba_20190105211658329.png

表示为矩阵形式:

5c6bcf7840b45654c1641564d92b0ef0_20190105213337594.png

构造损失函数:

4fe04405e14dece705539b0766396250_2019010521342731.png

求导:

分两种情况:矩阵X满秩和不满秩

满秩矩阵相当于正定矩阵,也就是在求解线性方程组的时候,方程组的个数和要求解的变量个数一样,这个时候是满秩的,则能够得到唯一解,满秩矩阵可逆的行列式不为零,也是非奇异矩阵

(1)矩阵X满秩情况

     求导为零

fa3b4b5c4e7f907482ca1d50be6882c4_262057197703308.jpg

(2)不满秩的情况

要求解的变量个数大于样本数,求得多个解wi,它们都能使得均方误差最小,那么问题是选择哪一个作为解作为输出?


第一种:引入正则化项(相当于对不重要的变量去掉,使它能够满足线性方程组的解唯一情况)


参考:https://blog.csdn.net/gshgsh1228/article/details/52199870

0ccdd0deff3041667e91165b69fceb06_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2hlZGEz,size_16,color_FFFFFF,t_70.png

(后续待进一步理解)


第二种、采用梯度下降算法求解


(2.1)设置初始值可以是随机的


(2.2)改变θ的值,使得J(θ)按梯度下降的方向进行减少



参考:

   【1】从零开始机器学习001-线性回归数学推导 http://blog.51cto.com/12133258/2051527

   【2】线性回归详解https://blog.csdn.net/qq_36330643/article/details/77649896 参考的斯坦福课程视频

    【3】机器学习入门的绝佳材料:斯坦福大学机器学习课程原始讲义(含公开课视频)https://blog.csdn.net/datoubo/article/details/8597996

    【4】统计学习

    【5】西瓜书



目录
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
4月前
|
存储 算法 测试技术
预见未来?Python线性回归算法:数据中的秘密预言家
【9月更文挑战第11天】在数据的海洋中,线性回归算法犹如智慧的预言家,助我们揭示未知。本案例通过收集房屋面积、距市中心距离等数据,利用Python的pandas和scikit-learn库构建房价预测模型。经过训练与测试,模型展现出较好的预测能力,均方根误差(RMSE)低,帮助房地产投资者做出更明智决策。尽管现实关系复杂多变,线性回归仍提供了有效工具,引领我们在数据世界中自信前行。
65 5
|
5月前
|
机器学习/深度学习 人工智能 算法
【人工智能】线性回归模型:数据结构、算法详解与人工智能应用,附代码实现
线性回归是一种预测性建模技术,它研究的是因变量(目标)和自变量(特征)之间的关系。这种关系可以表示为一个线性方程,其中因变量是自变量的线性组合。
102 2
|
5月前
|
机器学习/深度学习 算法 测试技术
【博士每天一篇文献-算法】A Simple Way to Initialize Recurrent Networks of Rectified Linear Units
本文介绍了一种新的递归神经网络(RNN)初始化方法,通过使用单位矩阵或其缩放版本来初始化修正线性单元(ReLU)组成的RNN,称为IRNN,该方法在处理长期依赖任务时表现优异,与长短期记忆(LSTM)RNN性能相当。
44 1
|
5月前
|
存储 算法 定位技术
预见未来?Python线性回归算法:数据中的秘密预言家
【8月更文挑战第3天】站在数据的海洋边,线性回归算法犹如智慧的预言家,揭示着房价的秘密。作为房地产投资者,面对复杂的市场,我们可通过收集房屋面积、位置等数据并利用Python的pandas及scikit-learn库,建立线性回归模型预测房价。通过评估模型的均方根误差(RMSE),我们可以更精准地判断投资时机,让数据引领我们走向成功的彼岸。
32 1
|
5月前
|
机器学习/深度学习 算法 数据可视化
Python数据分析高手修炼手册:线性回归算法,让你的数据说话更有力
【8月更文挑战第1天】在数据驱动时代,掌握数据分析技能至关重要。线性回归是最基础且强大的工具之一,能从复杂数据中提炼简单有效的模型。本文探索Python中线性回归的应用并通过实战示例加深理解。线性回归建立变量间线性关系模型:Y = β0 + β1*X + ε。使用scikit-learn库进行实战:首先安装必要库,然后加载数据、训练模型并评估性能。示例展示了如何使用`LinearRegression`模型进行房价预测,包括数据可视化。掌握线性回归,让数据“说话”更有力。
54 2
|
6月前
|
机器学习/深度学习 人工智能 算法
算法金 | 线性回归:不能忽视的五个问题
**线性回归理论基于最小二乘法和特定假设,如线性关系、同方差性等。多重共线性指自变量间高度相关,影响模型稳定性及系数解释。自相关性是观测值间的关联,违反独立性假设,影响模型预测。异方差性是误差项方差随自变量变化,导致参数估计失真。训练数据与测试数据分布不一致会降低模型泛化能力。检测和处理这些问题涉及VIF、自相关图、变换、加权最小二乘法等方法。**
76 1
算法金 | 线性回归:不能忽视的五个问题
|
6月前
|
数据采集 机器学习/深度学习 算法
Python实现多元线性回归模型(statsmodels OLS算法)项目实战
Python实现多元线性回归模型(statsmodels OLS算法)项目实战
|
6月前
|
数据采集 机器学习/深度学习 算法
「AIGC算法」线性回归模型
线性回归是监督学习经典算法,用于预测连续值。分为简单线性(1个特征)和多元线性(多特征)两种。模型建立涉及数据预处理、特征选择、参数估计和损失函数最小化。Python中可使用`sklearn`库快速实现,例如,创建、训练模型,预测并可视化结果。广泛应用于多个领域。
56 0
|
6月前
|
机器学习/深度学习 人工智能 供应链