秒懂“线性回归预测”-阿里云开发者社区

开发者社区> 初商> 正文

秒懂“线性回归预测”

简介: 线性回归是机器学习中的概念,线性回归预测算法一般用以解决“使用已知样本对未知公式参数的估计”类问题。
+关注继续查看

线性回归是机器学习中的概念,线性回归预测算法一般用以解决“使用已知样本对未知公式参数的估计”类问题。

举个栗子:

商家卖鞋,可利用历史上每个季度鞋的定价x与销量y,来预估“定价与销量的关系”(y=ax+b),以辅助对鞋子进行最佳定价。

一、几个基本概念

回归(regression):用已知样本对未知公式参数的估计。Y=f(X1, X2, X3),这里回归函数f(X1, X2, X3)可能是任意函数。

线性回归(linear regression):回归的一种,回归函数是一次函数,例如:
Y=f(X1, X2, X3)=aX1 + bX2 + cX3 + d

其中X1,X2,X3是训练样本集中样本的各个维度(feature),a,b,c,d是模型的未知参数。

逻辑回归(logistic regression):将Y归一化到[0, 1]区间。

总而言之,逻辑回归是线性回归的一种,线性回归是回归的一种。

二、线性回归模型经常是有效的

线性回归有什么用?

答:线性回归的预测模型虽然是一元线性方程,但现实中很多应用场景符合这个模型。

例如例子中商品的定价x与商品的销量y之间的关系。一般来说价格越贵则销量越低,价格越便宜则销量越高,于是就能够用y=ax+b这个评估模型来最大化商家的收益:收益=定价销量=xy=x*(ax+b)

什么场景适用于线性回归?

答:很多应用场景不能够使用线性回归模型来进行预测,例如,月份和平均气温,平均气温并不随着月份的增长呈线性增长或下降的趋势。它常用于:
(1)预测或分类,用于分类问题时,需要设定阈值区间,并提前知晓阈值区间与类别的对应关系
(2)线性问题,可以有多个维度(feature)

三、如何求解线性回归中的维度参数?

在已知样本集set的时候,如果根据样本集得到Y=f(X1,X2,X3,…)=aX1+bX2+cX3+…中的未知参数a,b,c呢?

这得先介绍最小二乘法,以及梯度下降法。

什么是最小二乘法?

答:最小二乘法适用于任意多维度的线性回归参数求解,它可求解出一组最优a,b,c解,使得对于样本集set中的每一个样本data,用Y=f(X1,X2,X3,…)来预测样本,预测值与实际值的方差最小。

画外音:方差是我们常见的估值函数(cost function),用来评估回归出来的预测函数效果。

什么是梯度下降法?

答:最小二乘法实际上只定义了估值函数是方差,真正求解a,b,c的方法是梯度下降法,这是一个枚举型的求解算法,其算法步骤如下:
(1)使用随机的a0, b0, c0作为初始值
(2)分别求解最优a, b, c…,对于每个维度参数的求解,步骤为(以a为例):
2.1)设定a范围的最大值与最小值
2.2)设定a计算的梯度步长(这就是它叫梯度下降法的原因)
2.3)固定其他维度参数
2.4)计算a的所有取值中,使得估值函数最小的那个a即为所求

数学上可以证明:
(1)上述算法是可以收敛的(显而易见)
(2)分别求出a,b,c的最优值,组合起来就是整体的最优值(没这么明显了),这个结论是很重要的,假设样本个数为n,计算a,b,c的算法复杂度都是线性的O(m),这个结论让算法的整体复杂度是nO(m) +nO(m) + nO(m),而不是[nO(m) ][nO(m)][nO(m)]的关系。

画外音:计算机非常适合干这个事情,确定范围和梯度后,这是一个线性复杂度的算法。

四、再来个栗子说明

已知过去4个季度销量与价格的数据样本集为:

价格x为10时,销量y为80

价格x为20时,销量y为70

价格x为30时,销量y为60

价格x为40时,销量y为65

假设销量y与价格x是线性关系:

y=ax +b

假设a的范围为[-2, 2],a的梯度为1

假设b的范围为[80, 120],b的梯度为10

画外音:计算机计算的时候,范围会很大,梯度精度会很细。

求解最优a和b的过程为:

(1)设a0=-2,b0=80,从最边缘开始求解

(2.1)先求最优a,固定b=80不动,a从-2到2梯度递增,求最优a的解

image.png

可以看到,a=-1时方差最小,故a=-1是最优解。

(2.2)再求最优b,固定2.1求出的最优a=-1,b从80到120梯度递增,求最优b的解

image.png

可以看到,b=90时方差最小,故b=90是最优解。

(3)得到最优解a=-1,b=90,于是得到定价与销量的关系是:y=-x+90

(4)最终得到

收益=定价销量=xy=x*(-x+90)

于是,当价格定在45元时,整体收益能够最大化。

五、总结

  • 逻辑回归是线性回归的一种,线性回归是回归的一种
  • 线性回归可以用在预测或分类,多维度(feature)线性问题求解上
  • 可以用最小二乘法,梯度下降法求解线性预测函数的系数
  • 梯度下降法的核心步骤是:设置系数范围,设定系数梯度,固定其他系数,对某一个系数穷举求方差最小最优解

希望这一分钟,对线性回归预测有了一点点了解。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
4119 0
怎么设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程
7246 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4565 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
5511 0
阿里云服务器远程登录用户名和密码的查询方法
阿里云服务器远程连接登录用户名和密码在哪查看?阿里云服务器默认密码是什么?云服务器系统不同默认用户名不同
678 0
阿里云服务器ECS登录用户名是什么?系统不同默认账号也不同
阿里云服务器Windows系统默认用户名administrator,Linux镜像服务器用户名root
1153 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,云吞铺子总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系统盘、创建快照、配置安全组等操作如何登录ECS云服务器控制台? 1、先登录到阿里云ECS服务器控制台 2、点击顶部的“控制台” 3、通过左侧栏,切换到“云服务器ECS”即可,如下图所示 通过ECS控制台的远程连接来登录到云服务器 阿里云ECS云服务器自带远程连接功能,使用该功能可以登录到云服务器,简单且方便,如下图:点击“远程连接”,第一次连接会自动生成6位数字密码,输入密码即可登录到云服务器上。
17207 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
3500 0
+关注
770
文章
584
问答
来源圈子
更多
阿里云最有价值专家,简称 MVP(Most Valuable Professional),是专注于帮助他人充分了解和使用阿里云技术的意见领袖阿里云 MVP 奖项为我们提供了这样一个机会,向杰出的意见领袖表示感谢,更希望通过 MVP 将开发者的声音反映到我们的技术路线图上。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载