【视频】广义相加模型(GAM)在电力负荷预测中的应用(一)

简介: 【视频】广义相加模型(GAM)在电力负荷预测中的应用

1导言

这篇文章探讨了为什么使用广义相加模型 是一个不错的选择。为此,我们首先需要看一下线性回归,看看为什么在某些情况下它可能不是最佳选择。

2回归模型

假设我们有一些带有两个属性Y和X的数据。如果它们是线性相关的,则它们可能看起来像这样:


为了检查这种关系,我们可以使用回归模型。线性回归是一种使用X来预测变量Y的方法。将其应用于我们的数据将预测成红线的一组值:

这就是“直线方程式”。根据此等式,我们可以从直线在y轴上开始的位置(“截距”或α)开始描述,并且每个单位的x都增加了多少y(“斜率”),我们将它称为x的系数,或称为β)。还有一点自然的波动,如果没有的话,所有的点都将是完美的。我们将此称为“残差”(ϵ)。

数学上是:

或者,如果我们用实际数字代替,则会得到以下结果:


这篇文章通过考虑每个数据点和线之间的差异(“残差)然后最小化这种差异来估算模型。

我们在线的上方和下方都有正误差和负误差,因此,通过对它们进行平方并最小化“平方和”,使它们对于估计都为正。这称为“普通最小二乘法”或OLS。

3非线性关系如何?

因此,如果我们的数据看起来像这样,我们该怎么办:

我们刚刚看到的模型的关键假设之一是y和x线性相关。如果我们的y不是正态分布的,则使用广义线性模型 _(Nelder&Wedderburn,1972)_,其中y通过链接函数进行变换,但再次假设f(y)和x线性相关。如果不是这种情况,并且关系在x的范围内变化,则可能不是最合适的。我们在这里有一些选择:

  • 我们可以使用线性拟合,但是如果这样做的话,我们会在数据的某些部分上面或者下面。
  • 我们可以分为几类。我在下面的图中使用了三个,这是一个合理的选择。同样,我们可能处于数据某些部分之下或之上,而在类别之间的边界附近似乎是准确的。例如,如果x = 49时,与x = 50相比,y是否有很大不同?
  • 我们可以使用多项式之类的变换。下面,我使用三次多项式,因此模型适合: 。这些的组合使函数可以光滑地近似变化。这是一个很好的选择,但可能会极端波动,并可能在数据中引起相关性,从而降低拟合度。

4样条曲线

多项式的进一步细化是拟合“分段”多项式,我们在数据范围内将多项式链在一起以描述形状。“样条线”是分段多项式,以绘图员用来绘制曲线的工具命名。物理样条曲线是一种柔性条,可以弯曲成形,并由砝码固定。在构造数学样条曲线时,我们有多项式函数,二阶导数连续,固定在“结”点上。

下面是一个ggplot2 对象,该 对象的 geom_smooth 的公式包含ns 函数中的“自然三次样条”  。这种样条曲线为“三次” ,并且使用10个结


【视频】广义相加模型(GAM)在电力负荷预测中的应用(二)https://developer.aliyun.com/article/1485894


相关文章
|
SQL 监控 关系型数据库
MySQL 延迟从库介绍
我们都知道,MySQL 主从延迟是一件很难避免的情况,从库难免会偶尔追不上主库,特别是主库有大事务或者执行 DDL 的时候。MySQL 除了这种正常从库外,还可以设置延迟从库,顾名思义就是故意让从库落后于主库多长时间,本篇文章我们一起来了解下 MySQL 中的延迟从库。
140 0
|
存储 缓存 NoSQL
Java开发面试--Redis专区(一)
Java开发面试--Redis专区
173 0
jsp 中 out 输出流 和 response.getwriter()输出流
jsp 中 out 输出流 和 response.getwriter()输出流
jsp 中 out 输出流 和 response.getwriter()输出流
|
测试技术
LeetCode 204. Count Primes
统计所有小于非负整数 n 的质数的数量。
142 0
LeetCode 204. Count Primes
|
安全 Java
创建型模式-原型模式
创建型模式-原型模式
222 0
|
存储 负载均衡 NoSQL
一口气说出 4 种分布式一致性 Session 实现方式,面试杠杠的~(下)
阿粉公司有一个 Web 管理系统,使用 Tomcat 进行部署。由于是后台管理系统,所有的网页都需要登录授权之后才能进行相应的操作。 起初这个系统的用的人也不多,为了节省资源,这个系统仅仅只是单机部署。后来随着用的人越来越多,单机已经有点扛不住了,于是阿粉决定再部署了一台机器。
一口气说出 4 种分布式一致性 Session 实现方式,面试杠杠的~(下)
|
Kubernetes 应用服务中间件 nginx
在 Kubernetes 内取得使用者 IP – HTTP Loadbalancer
对于提供 HTTP 服务的系统来说,取得来源 IP 方式有两种: 利用包头取得来源 IP此方案是直接读取封包的来源 IP,但由于容器和外界沟通不像传统 Linux 主机有实体网卡对接,而是通过一系列的 NAT 规则置换包头后才传进容器内 (Understand container communication),导致取得错误的使用者 IP。
2183 0
|
Oracle 关系型数据库 数据库
[20170526]GLOBAL_NAME为NULL的修复2.txt
[20170526]GLOBAL_NAME为NULL的修复2.txt --//昨天看了www.oratea.com/2017/05/22/%e4%bf%ae%e6%94%b9props%e7%9a%84global_db_name%e4%b8%ba%e7%a9%ba...
1296 0
|
JavaScript 前端开发
javascript 冒泡排序法
function BubbleSort(array){ var temp; for (var i = 1; i < array.length; i++) { for (var j = array.
976 0