《R语言数据挖掘:实用项目解析》——2.4 解读分布和变换

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介:

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.4节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4 解读分布和变换

为了对所有统计假设检验的前提假设有清晰的认识,理解概率分布至关重要。例如,在线性回归分析中,基本的前提假设是误差分布呈正态分布且变量关系为线性。所以在建立模型之前,观察分布的形状并采取可能的校正变换是很重要的,如此才能便于对这些变量使用更深入的统计技术。

2.4.1 正态分布

正态分布原理基于中心极限定理(CLT),表示从一个均值为μ、方差为σ2的总量中抽取的所有大小为n的样本,在n增长趋于无穷时,其分布都近似于一个均值为μ、方差为σ2的正态分布。检查变量的正态性对于移除离群点很重要,因为这样才会使得预测过程不会受影响。离群点的存在不仅会使预测值偏离,也会影响预测模型的稳定性。接下来的示例代码和图将演示如何图像化地检测并解释正态性。

为了检测出正态分布,我们可以使用其中一些变量的平均值、中位数和众数:

image
image

从上图可以得出这样的结论,price变量是正偏斜的,因为一些离群点在分布的右边。price的平均值被夸大且大于众数,因为平均值受到极端值波动的影响。

现在我们尝试理解一个可用正态分布解答假设的案例。

假设变量MPG.highway(高速路上每加仑油耗可行驶的英里数)呈均值为29.08和标准差为5.33的正态分布,一辆新车每加仑油耗可行驶35英里(约56km)的概率是多少?

image

因此要求一辆新车每加仑油耗可以行驶35英里的概率是13.36%。因为期望均值高于实际均值,所以lower.tail设为F。

2.4.2 二项分布

二项分布也被称为离散概率分布,它描述的是一个试验的结果。每一次试验均假定只有两种结果:要么为成功或失败,要么为是或否。举个例子,Cars93数据集中,是否手动变速(manual transmission availability)就被表示成yes或no。

下面以一个例子来解释二项分布可以用在什么地方。对于一辆有缺陷的汽车,有一个特定零件功能坏了的概率是0.1%。假设有93辆已制造好的汽车,至少一辆有缺陷的汽车可被检测出来的概率是多大:

image

所以要求的93辆汽车中的有缺陷汽车概率是0.0006,与一个损坏零件的概率0.10相比,这是个非常小的数字。

2.4.3 泊松分布

泊松分布针对的是计数数据,给定关于一个事件的数据与信息,利用泊松概率分布,你可以预测在极限范围内任一数字出现的概率。

我们来看一个例子。假设平均每分钟有200位顾客访问某电商网站,可得一分钟内会有250个顾客访问同一个网站的概率:

image

因此,所求的概率是0.0002,说明这种情况很罕见。除了上述常见的概率分布,还有一些分布可用于罕见情况。

相关文章
|
6月前
|
定位技术
【视频】Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例-3
【视频】Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例
|
6月前
R语言分布滞后线性和非线性模型DLM和DLNM建模应用| 系列文章
R语言分布滞后线性和非线性模型DLM和DLNM建模应用| 系列文章
|
3月前
|
存储 数据采集 数据处理
R语言数据变换:使用tidyr包进行高效数据整形的探索
【8月更文挑战第29天】`tidyr`包为R语言的数据整形提供了强大的工具。通过`pivot_longer()`、`pivot_wider()`、`separate()`和`unite()`等函数,我们可以轻松地将数据从一种格式转换为另一种格式,以满足不同的分析需求。掌握这些函数的使用,将大大提高我们处理和分析数据的效率。
|
6月前
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
|
6月前
|
数据可视化
【R语言实战】——金融时序分布拟合
【R语言实战】——金融时序分布拟合
|
6月前
|
机器学习/深度学习
数据分享|R语言广义线性模型GLM:线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-1
数据分享|R语言广义线性模型GLM:线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟
|
6月前
|
数据处理
R语言GARCH族模型:正态分布、t、GED分布EGARCH、TGARCH的VaR分析股票指数
R语言GARCH族模型:正态分布、t、GED分布EGARCH、TGARCH的VaR分析股票指数
|
6月前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
6月前
|
前端开发 数据可视化 算法
r语言Bootstrap自助法重采样构建统计量T抽样分布近似值可视化|代码分享
r语言Bootstrap自助法重采样构建统计量T抽样分布近似值可视化|代码分享
|
6月前
|
机器学习/深度学习 人工智能 算法
数据分享|R语言广义线性模型GLM:线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-2
数据分享|R语言广义线性模型GLM:线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟