【视频】什么是梯度下降?用线性回归解释和R语言估计GARCH实例

简介: 【视频】什么是梯度下降?用线性回归解释和R语言估计GARCH实例

全文链接:http://tecdat.cn/?p=23606


梯度下降是一种优化算法,能够为各种问题找到最佳解决方案点击文末“阅读原文”获取完整代码数据


梯度下降是什么?

梯度下降的主要功能是最小化成本函数。

这个定义很难理解,对吧?!

好的,让我们通过一个例子来理解它。

假设我们有2个变量的数据,并且 ,其中x是自变量,y是因变量。因此,我们的目标是预测给定的y。假设数据如下所示。在这里,我们正在考虑线性回归问题。所以我们得到这条线,这样我们就可以预测任何.x``y

众所周知,直线的等式,如下所示。y = mx + c

这里的 θ₀ 和 θ₁ 称为权重。我们必须找到这些权重才能获得数据的最佳拟合线。

但问题是,如何获得这条线以使其适合数据?为此,首先我们必须找到误差,即实际输出和预测输出之间的差异,这是由我们的假设函数用一些随机权重计算的。

为此,我们需要一个成本函数来计算这个误差。对于线性回归,成本函数定义如下:

你会发现,首先成本函数取实际值和预测值的差值,然后取它的平方,然后取所有数据的平均值。所以基本上它是在计算线在数据上的拟合程度。如果成本函数的值接近0,那么很好,但如果是一个很大的值,那么必须改变假设函数的权重。那么是否必须随机尝试不同的权重才能获得最佳拟合线?不用,这时就可以用梯度下降方法。这里,成本函数是 θ₀ 和 θ₁ 的函数。例如,我们有x和它的函数f(x)。现在我们想要具有最小值的值。众所周知,在某个点取函数的微分,意味着该点的斜率。因此,我们可以说,在这一点上,这种分化变为 0 意味着在该点上,斜率的值为 0,意味着我们得到一条水平的斜线。

请看下图:

在这里你可以看到,在x'值时,斜率变成了水平的。这意味着此时的值是最小的。您可以在图像中清楚地看到这一点。此时,f(x)的微分为0。所以在这里,我们正在做的是找到图形的最小值

现在让我们回到梯度下降。

我们有 θ₀ 和 θ₁ 作为参数和成本函数,它是 θ₀ 和 θ₁ 的函数。因此,这里我们希望最小化成本函数,以便我们可以为我们的模型获得最佳拟合线。如上例所述,我们必须找到成本函数的微分,此时它变为 0,将得到最佳拟合线的 θ₀ 和 θ₁ 值。所以我们想找到最小值

所以我们有 2 个参数和一个成本函数。如果我们将其绘制在图形中,它将是 3D,如下所示。看到图像,你会得到更好的理解。

这里我们在图中有 θ₀、θ₁ 和 J(θ₀, θ₁)。现在取一个随机值 θ₀, θ₁ 并为此计算成本函数。在图形中设置此值,假设该点显示在图形中。我们希望该点最小点。您可以看到,在点斜率变为 0,对于该 θ₀,θ₁ 成本函数具有最低值意味着我们有数据的最佳拟合线。

现在的问题是,在这一点上如何到达?

程序是首先计算一个点的斜坡。之后,朝那个方向走下。并重复此步骤,直到我们得到 slop 0 的值。

例如,假设你在浓雾中迷失在山上,你只能感觉到脚下地面的坡度。快速到达底部的一个好策略是朝最陡峭的斜坡方向下坡。

让我们看看梯度下降的方程,然后你很容易理解。

学习率(也称为步长或alpha)是为达到最小值而采取的步骤的大小。这通常是一个较小的值,它根据成本函数的行为进行评估和更新。

所以现在,如果你看到这个等式,就可以理解它是如何工作的。对于任何θ,它将首先计算斜率,然后将这个斜率乘以学习率,使其变为比较小的值,然后从原始θ中减去该值并将θ替换为我们得到的值。这个过程会重复,直到找到任何最小值或收敛。基本上,它将θ移动到局部或全局最小值。

如果α很小,那么算法将经历多次迭代并花费大量时间。

如果α很高,您可能会跳过山谷,这可能会使算法发散并且无法找到最佳解决方案。

梯度下降的类型

有 3 种类型:

  1. 批量梯度下降
    它计算训练集中每个示例的误差。评估完所有参数后,它会更新模型参数。
    它的计算效率很高,会产生稳定的误差梯度和收敛性,但它需要在内存中有一个完整的训练集。
  2. 随机梯度下降
    它根据单个训练样本的误差梯度更新参数。
    它比批量梯度下降更快。频繁更新可提供详细的改进速度,但这些更新的成本更高。
  3. 批量梯度下降
    它将训练集分成小批次,并为每个批次执行更新。
    它平衡了批处理和随机梯度下降,因为它使用两者的组合。

梯度下降的挑战

  • 局部最小值和高原
    并非所有成本函数看起来都不像一个普通的碗。第一个情况,它可能卡在局部最小值。第二个情况,需要很长时间才能达到全局最小值。

  • 爆炸梯度
    当梯度太大时会发生这种情况,从而创建不稳定的模型。在这种情况下,模型权重将变得太大,最终将表示为 NaN。此问题的一个解决方案是利用降维技术,这有助于最大程度地降低模型中的复杂性。


R语言用极大似然和梯度下降算法估计GARCH(p)过程


本文考虑一些ARCH(p)过程,例如ARCH(1)。

其中

有一个高斯白噪声 .

> for(t in 3:n){
+ sigma2\[t\]=w+a1\*epsilon\[t-1\]^2+a2\*epsilon\[t-2\]^2
+ epsilon\[t\]=eta\[t\]*sqrt(sigma2\[t\])
+ }

(红线是条件方差过程)。

> acf(epsilon,lag=50,lwd=2)

如果 是一个ARCH(),那么 就是一个AR(1)过程。所以第一个想法是考虑回归,就像我们对AR(1)所做的那样

> summary(lm(Y~X1,data=db))

这里有一些明显的自相关。但由于我们的向量不能被认为是高斯分布的,使用最小二乘法也许不是最好的策略。实际上,如果我们的序列不是高斯分布的,它仍然是有条件的高斯分布的,因为我们假设 是高斯(强)白噪声。

然后,似然函数是

而对数似然函数为

而一个自然的想法是定义

代码简单地说就是

> OPT=optim(par=

+ coefficients(lm(Y~X1,data=db)),fn=loglik)

由于参数必须是正数,我们在此假定它们可以写成一些实数的指数。观察一下,这些值更接近于用来生成我们的时间序列的值。


点击标题查看相关文章


Python使用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模拟进行股价预测


01

02

03

04


如果我们使用R函数来估计这些参数,我们会得到

> summary(garch(epsilon,c(0,1)))

...

所以 的置信区间是

coef\[2,1\]+

+ c(-1.96,1.96)*coef\[2,2\]

实际上,由于我们的主要兴趣是这个 参数,所以有可能使用轮廓似然方法。

> OPT=optimize(function(x) -proflik(x), interval=c(0,2))

objective-qchisq(.95,df=1)

> abline(h=t,col="red")

当然,所有这些技术都可以扩展到高阶ARCH过程。例如,如果我们假设有一个ARCH(2)时间序列

其中

有一个高斯(强)白噪声 .对数似然性仍然是

而我们可以定义

上面的代码可以被修改,以考虑到这个额外的部分。

optim(par=

+ coefficients(lm(Y~X1+X2,data=db)),fn=loglik)

我们也可以考虑一些广义的ARCH过程,例如GARCH(1,1)。

其中

同样,可以使用最大似然技术。实际上,我们也可以用Fisher-Scoring算法编码,因为(在一个非常普遍的情况下

这里 . 使用标准的梯度下降算法,我们可以得到以下对GARCH过程的估计。

> while(sum(G^2)>1e-12){
+ s2=rep(theta\[1\],n)
+ for (i in 2:n){s2\[i\]=theta\[1\]+theta\[2\]\*X\[(i-1)\]^2+theta\[3\]\*s2\[(i-1)\]}

这里有趣的一点是,我们也得出了(渐进的)方差

>sqrt(diag(solve(H))


相关文章
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
|
4月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
7月前
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
7月前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
7月前
|
机器学习/深度学习 监控 数据可视化
R语言SOM神经网络聚类、多层感知机MLP、PCA主成分分析可视化银行客户信用数据实例2
R语言SOM神经网络聚类、多层感知机MLP、PCA主成分分析可视化银行客户信用数据实例
|
7月前
|
图形学
R语言其他相关函数(各函数解析含实例,可供查询)
R语言其他相关函数(各函数解析含实例,可供查询)
218 0
|
7月前
R语言绘图相关函数(含实例)
R语言绘图相关函数(含实例)
73 0
|
7月前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
7月前
|
机器学习/深度学习 人工智能 数据可视化
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据