全文链接:http://tecdat.cn/?p=21425
“In cauda venenum”是您在极值理论一书中看到的第一句话:Laurens de Haan 和 Anna Ferreira 的介绍,这是关于您在应用 EVT 时将要处理的数据的性质的非常富有表现力的句子,极端数据通常具有更重要的尾部信息,反映真实行为。
本文利用GPD模型对火灾经济损失数据(查看文末了解数据获取方式)进行了统计建模;并对形状参数及尺度参数进行了估计。
正态分布属于统计学里的知识,对于我们科研来说在数据处理时常常用到所以需要学习相关的知识。
正态分布在自然界中是一种最常见的分布。例如,测量的误差、射击的偏差、人体的身高、农作物的亩产量、学生考试成绩等都近似服从正态分布,因此,正态分布在科研理论研究中是非常重要的。
但对于您可能有兴趣研究大型事件的影响以进一步了解和未来预期的其他各种情况,正态分布将不起作用!很多数据都适合这种描述,例如需要研究大额财务损失的影响并获得其发生概率的财务数据。
由于此类事件很少见,正态分布会忽略它,因为它不会发生,而极值理论 (EVT)似乎通过突出数据的极值部分并对其进行单独建模以回答相关感兴趣问题。
点击标题查阅往期内容
01
02
03
04
由于统计中的任何表达式都有“理论”一词,因此给人的印象是黑匣子充满了复杂/未触及的内容。
在本文中,我们将预览 EVT 的各种应用程序的简化介绍,最后您将大致了解 EVT,为什么以及何时需要使用它?
概述
这篇文章将如下
- 关于 EVT 的简单介绍。
- 列出实现 EVT 的不同应用程序。
顾名思义,极值理论提供了一类方法来预测极端事件的行为方式。它用于结构工程、地球科学和城市规划;随着新研究的不断涌现,它已被证明是极值分析中的重要资源。
简而言之,EVT 可以概括为对风险价值(也称为方差-协方差法)疏忽的解决方案。
介绍
“重尾”和高斯分布模型有什么区别?
“重尾”分布是那些尾部不是指数边界的分布。与具有“正态分布”的钟形曲线不同,重尾分布以较慢的速度接近零,并且可能具有非常高的异常值。
就风险而言,重尾分布更有可能发生较大的、不可预见的事件。从图形上看,与经验数据相比,重尾模型(深蓝色)捕捉到了模型投资组合中描述的更多风险。高斯模型或钟形曲线,正态分布为浅蓝色。
峰度是从简单统计中检测极端数据最合适的度量,其中高峰度表示重尾分布,而低峰度表示相当轻的尾分布。仍然峰度不足以获得关于尾部、端点估计等的准确信息。
基于EVT,对于要作为极端数据考虑和分析的数据,数据必须具有其样本最大值的极限分布。从统计上讲
Fréchet、Ronald Fisher、Leonard Tippett、Richard von Mises 和 Boris Gnedenko 建立的 EVT 理论和基础。它们指定了样本最大值的一组非退化极限分布,称为“极值分布类别”,
很明显,这类分布取决于一个称为极值指数 (EVI)的主要参数,这是了解极限分布性质的关键参数。EVI将极值分布的一般类分为三个子类:
- 正 EVI表示具有_无限端点_的分布,这意味着您正在处理重尾分布。
- 零 EVI表示分布_端点等于无穷大_,即Light Tailed Distribution。
- 负 EVI是指_端点为负的 EVI 可逆_分布,表示短尾分布。
极值理论
通常极端分析从相对较大的数据开始,然后缩小规模以仅分析极端观察。选择这些观测值的主要方法有两种,即:超阈值峰值方法 (POT) 和分块极大值方法。
请注意,它与极值定理不同,极值定理说对于连续闭合函数必须存在最小值和最大值。
基本上,极值理论中使用了两种方法:
- AMS(annual maxima series):也称为块最大值模型,在这种模型中,数据集被分成等长的集合,每个集合的最大值被认为来自一个分布。最大值的分布不同于基础分布。这些分布是广义极值分布的一部分。这些分布Gumbel 分布(指数尾)、Fréchet 分布(重尾)或Weibull 分布(轻尾)。
- POT(Peak Over Threshold):第二种方法依赖于从连续记录中提取值超过某个阈值(低于某个阈值)的任何时期达到的峰值。这种方法通常被称为“Peak Over Threshold”方法 (POT)。使用这种方法的分布拟合是帕累托,对随机变量进行适当的重整化后的泛化形式称为广义帕累托分布。
块最大值法 _将数据分成若干块,得到每个块的最大值_。它需要非常大的数据集才能具有足够数量的块。而POT 方法是更现代的极端事件建模方法,它通过_指定某个_高阈值_并在分析中考虑高于该点的所有观察结果来工作_. 在 POT 方法中,找到阈值总是至关重要的,并且有很多方法可以找到它,例如希尔图。
分块极大值方法
数据被分成区间,区间的大小由统计学家决定。取每个间隔(或“块”,因此得名)的最极端值。最极端的值将是块中的最小值或最大值,具体取决于统计学家的目标。使用 Block Maxima 方法时,没有确定块大小的标准化方法。
峰值超过阈值
阈值由统计学家决定,高于(或低于)该阈值的所有值都被视为极端值。这些是选择要建模的值。
这些方法在许多方面都被证明是有用的,尽管它们也有自己的挫折。使用 Block Maxima 方法时,没有确定块大小的标准化方法,类似于使用 POT 方法时没有标准阈值。这意味着统计学家将不得不用他们最好的判断来自己决定“正常”和“极端”之间的界限在哪里;值太低会导致较大的方差;过多的订单统计数据可能会导致较大的偏差。
极值分析面临的主要挑战之一是缺乏可用的数据。仅对一小部分数据进行建模可能会遇到挫折;它可能导致过度概括,或者模型是仅在特定情况下运行良好的模型。鉴于 EVT 只关注最极端的值,我们需要只适用于罕见和极端情况的模型。此外,鉴于我们正在尝试计算极端数据,我们在某种程度上试图尽可能地过度概括,同时仍然对数据提供准确的洞察力。
应用
从介绍中,您可能对使用极端分析的案例有所了解。简而言之,当您有兴趣查看数据中甚至可能从未发生过的极端/不规则事件时,简单的峰度工具可能会给出提示。在这里,我将为您提供几个实际应用及其结论以及如何将 EVT 纳入分析。
一、人类寿命的极限
该应用程序考虑了 1986 年至 2015 年间死亡的荷兰居民的死亡年龄数据。根据这些数据,他们想确定人类寿命的极限。 使用 POT 方法,通过最大似然估计量估计 EVI 对于女性和男性都是负数,这强烈表明存在年龄分布的有限端点。然后通过女性 124 岁和男性 125 岁来估计终点。有关分析和数据的详细信息,您可以查看通过极值理论限制人类寿命的论文。
二、终极运动记录
收集有关跑步、投掷和跳跃的运动记录的数据来回答这个问题,每项特定运动的最终记录是什么?他们首先通过矩估计量来估计 EVI,该估计量对于大多数事件都变为负数,这表明端点有限。然后根据估计的 EVI 估计端点。更多细节可以在通过极值理论在田径运动中的记录中找到。
三、堤坝高度
这被认为是 EVT 最著名的应用之一。在荷兰,众所周知,该国近 40% 的地区都在海平面以下。确保该国免受 1953 年发生的任何可能的洪水的影响是非常重要的。然后需要 EVT 来回答一个重要的问题,即在一年内应该给予堤坝非常小的洪水概率?通过收集 100 年的风暴数据,他们通过估计堤坝高度的极端分位数来回答这个问题,因为洪水的概率是 0.0001。
【视频】R语言极值理论EVT:基于GPD模型的火灾损失分布分析|数据分享(下):https://developer.aliyun.com/article/1492335