【视频】R语言极值理论EVT:基于GPD模型的火灾损失分布分析|数据分享(上)

简介: 【视频】R语言极值理论EVT:基于GPD模型的火灾损失分布分析|数据分享

全文链接:http://tecdat.cn/?p=21425


“In cauda venenum”是您在极值理论一书中看到的第一句话:Laurens de Haan 和 Anna Ferreira 的介绍,这是关于您在应用 EVT 时将要处理的数据的性质的非常富有表现力的句子,极端数据通常具有更重要的尾部信息,反映真实行为。

本文利用GPD模型对火灾经济损失数据查看文末了解数据获取方式进行了统计建模;并对形状参数及尺度参数进行了估计。


正态分布属于统计学里的知识,对于我们科研来说在数据处理时常常用到所以需要学习相关的知识。

正态分布在自然界中是一种最常见的分布。例如,测量的误差、射击的偏差、人体的身高、农作物的亩产量、学生考试成绩等都近似服从正态分布,因此,正态分布在科研理论研究中是非常重要的。


但对于您可能有兴趣研究大型事件的影响以进一步了解和未来预期的其他各种情况,正态分布将不起作用!很多数据都适合这种描述,例如需要研究大额财务损失的影响并获得其发生概率的财务数据。


由于此类事件很少见,正态分布会忽略它,因为它不会发生,而极值理论 (EVT)似乎通过突出数据的极值部分并对其进行单独建模以回答相关感兴趣问题。


点击标题查阅往期内容


POT超阈值模型和极值理论EVT分析


01

02

03

04

由于统计中的任何表达式都有“理论”一词,因此给人的印象是黑匣子充满了复杂/未触及的内容。

在本文中,我们将预览 EVT 的各种应用程序的简化介绍,最后您将大致了解 EVT,为什么以及何时需要使用它?


概述


这篇文章将如下

  • 关于 EVT 的简单介绍。
  • 列出实现 EVT 的不同应用程序。

顾名思义,极值理论提供了一类方法来预测极端事件的行为方式。它用于结构工程、地球科学和城市规划;随着新研究的不断涌现,它已被证明是极值分析中的重要资源。

简而言之,EVT 可以概括为对风险价值(也称为方差-协方差法)疏忽的解决方案。


介绍


“重尾”和高斯分布模型有什么区别?

“重尾”分布是那些尾部不是指数边界的分布。与具有“正态分布”的钟形曲线不同,重尾分布以较慢的速度接近零,并且可能具有非常高的异常值

就风险而言,重尾分布更有可能发生较大的、不可预见的事件。从图形上看,与经验数据相比,重尾模型(深蓝色)捕捉到了模型投资组合中描述的更多风险。高斯模型或钟形曲线,正态分布为浅蓝色。


峰度是从简单统计中检测极端数据最合适的度量,其中高峰度表示重尾分布,而低峰度表示相当轻的尾分布。仍然峰度不足以获得关于尾部、端点估计等的准确信息。

基于EVT,对于要作为极端数据考虑和分析的数据,数据必须具有其样本最大值的极限分布。从统计上讲

Fréchet、Ronald Fisher、Leonard Tippett、Richard von Mises 和 Boris Gnedenko 建立的 EVT 理论和基础。它们指定了样本最大值的一组非退化极限分布,称为“极值分布类别”,

很明显,这类分布取决于一个称为极值指数 (EVI)的主要参数,这是了解极限分布性质的关键参数。EVI将极值分布的一般类分为三个子类:

  • 正 EVI表示具有_无限端点_的分布,这意味着您正在处理重尾分布
  • 零 EVI表示分布_端点等于无穷大_,即Light Tailed Distribution
  • 负 EVI是指_端点为负的 EVI 可逆_分布,表示短尾分布。




极值理论


通常极端分析从相对较大的数据开始,然后缩小规模以仅分析极端观察。选择这些观测值的主要方法有两种,即:超阈值峰值方法 (POT) 和分块极大值方法。

请注意,它与极值定理不同,极值定理说对于连续闭合函数必须存在最小值和最大值。

基本上,极值理论中使用了两种方法:

  1. AMS(annual maxima series):也称为块最大值模型,在这种模型中,数据集被分成等长的集合,每个集合的最大值被认为来自一个分布。最大值的分布不同于基础分布。这些分布是广义极值分布的一部分。这些分布Gumbel 分布(指数尾)、Fréchet 分布(重尾)或Weibull 分布(轻尾)。
  2. POT(Peak Over Threshold):第二种方法依赖于从连续记录中提取值超过某个阈值(低于某个阈值)的任何时期达到的峰值。这种方法通常被称为“Peak Over Threshold”方法 (POT)。使用这种方法的分布拟合是帕累托,对随机变量进行适当的重整化后的泛化形式称为广义帕累托分布。

块最大值法 _将数据分成若干块,得到每个块的最大值_。它需要非常大的数据集才能具有足够数量的块。而POT 方法是更现代的极端事件建模方法,它通过_指定某个_高阈值_并在分析中考虑高于该点的所有观察结果来工作_. 在 POT 方法中,找到阈值总是至关重要的,并且有很多方法可以找到它,例如希尔图。

分块极大值方法



数据被分成区间,区间的大小由统计学家决定。取每个间隔(或“块”,因此得名)的最极端值。最极端的值将是块中的最小值或最大值,具体取决于统计学家的目标。使用 Block Maxima 方法时,没有确定块大小的标准化方法

峰值超过阈值



阈值由统计学家决定,高于(或低于)该阈值的所有值都被视为极端值。这些是选择要建模的值。

这些方法在许多方面都被证明是有用的,尽管它们也有自己的挫折。使用 Block Maxima 方法时,没有确定块大小的标准化方法,类似于使用 POT 方法时没有标准阈值。这意味着统计学家将不得不用他们最好的判断来自己决定“正常”和“极端”之间的界限在哪里;值太低会导致较大的方差;过多的订单统计数据可能会导致较大的偏差。

极值分析面临的主要挑战之一是缺乏可用的数据。仅对一小部分数据进行建模可能会遇到挫折;它可能导致过度概括,或者模型是仅在特定情况下运行良好的模型。鉴于 EVT 只关注最极端的值,我们需要只适用于罕见和极端情况的模型。此外,鉴于我们正在尝试计算极端数据,我们在某种程度上试图尽可能地过度概括,同时仍然对数据提供准确的洞察力。


应用


从介绍中,您可能对使用极端分析的案例有所了解。简而言之,当您有兴趣查看数据中甚至可能从未发生过的极端/不规则事件时,简单的峰度工具可能会给出提示。在这里,我将为您提供几个实际应用及其结论以及如何将 EVT 纳入分析。

一、人类寿命的极限

该应用程序考虑了 1986 年至 2015 年间死亡的荷兰居民的死亡年龄数据。根据这些数据,他们想确定人类寿命的极限。 使用 POT 方法,通过最大似然估计量估计 EVI 对于女性和男性都是负数,这强烈表明存在年龄分布的有限端点。然后通过女性 124 岁和男性 125 岁来估计终点。有关分析和数据的详细信息,您可以查看通过极值理论限制人类寿命的论文。

二、终极运动记录

收集有关跑步、投掷和跳跃的运动记录的数据来回答这个问题,每项特定运动的最终记录是什么?他们首先通过矩估计量来估计 EVI,该估计量对于大多数事件都变为负数,这表明端点有限。然后根据估计的 EVI 估计端点。更多细节可以在通过极值理论在田径运动中的记录中找到。

三、堤坝高度

这被认为是 EVT 最著名的应用之一。在荷兰,众所周知,该国近 40% 的地区都在海平面以下。确保该国免受 1953 年发生的任何可能的洪水的影响是非常重要的。然后需要 EVT 来回答一个重要的问题,即在一年内应该给予堤坝非常小的洪水概率?通过收集 100 年的风暴数据,他们通过估计堤坝高度的极端分位数来回答这个问题,因为洪水的概率是 0.0001。


【视频】R语言极值理论EVT:基于GPD模型的火灾损失分布分析|数据分享(下):https://developer.aliyun.com/article/1492335

相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
58 3
|
3月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
7月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
4月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
4月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
91 3