数据偏度介绍和处理方法

简介: 偏度(skewness)是用来衡量概率分布或数据集中不对称程度的统计量。它描述了数据分布的尾部(tail)在平均值的哪一侧更重或更长。偏度可以帮助我们了解数据的偏斜性质,即数据相对于平均值的分布情况。

有时,正态分布倾向于向一边倾斜。这是因为数据大于或小于平均值的概率更高,因此使得分布不对称。这也意味着数据不是均匀分布的。

偏度可以与其他描述性统计一起描述变量的分布。通过偏度也可以判断变量是否为正态分布。因为正态分布的偏度为零,是许多统计过程的假设。

偏度分类

分布可以有右偏度(或正偏度)、左偏度(或负偏度)或零偏度。右偏态分布在其峰值的右侧较长,而左偏态分布在其峰值的左侧较长。

1、零偏度

—当一个分布的偏度为零时,它是对称的。它的左右两边是镜像。正态分布的偏度为零,但不是只有正态分布的偏度为零。任何对称分布,如均匀分布或某些双峰分布,偏度都是零。

检查变量是否具有倾斜分布的最简单方法是将其绘制成直方图。

分布近似对称,观测值在峰值的左右两侧分布相似。因此分布的偏度近似为零。

在零偏度的分布中,平均值和中位数是相等的,也就是说:

mean = median

2、右偏(正偏)

右偏分布在其峰值的右侧比其左侧更长。右偏也被称为正偏。它表明在分布的极端一端有观测值,但它们相对较少。右偏分布的右侧有一条长尾。

分布是右偏的,因为它在峰值右侧的时间更长。右偏分布的均值几乎总是大于中位数。这是因为极值(尾部的值)对均值的影响大于中位数。

mean > median

3、左偏(负偏)

左偏分布的峰值左侧比右侧更长。左偏分布的左侧有一条长尾。左偏也被称为负偏。

这个分布是左偏的,因为它在峰值的左侧更长。左偏分布的均值几乎总是小于中位数。

mean < median

偏度计算

有几个公式可以用来测量偏度。其中最简单的是皮尔逊中值偏度。它就是利用了上面我们说的偏态分布中均值和中位数不相等来计算的。

皮尔逊中位数偏度是计算均值和中位数之间有多少个标准差。

真实的观测很少有刚好为0的皮尔逊偏中值。因为如果数据的值接近于0,则可以认为它具有零偏度,但是在实际数据中很少有没有零偏度的分布数据。

例如,我们每年观测到的太阳黑子数量的Pearson中位数偏度:平均值= 48.6,中位数= 39,标准差= 39.5。那么公式如下:

如果该值介于:

·-0.5和0.5,值的分布几乎对称

·-1和-0.5之间为负偏斜,0.5到1之间为正偏斜。偏度适中。

·如果偏度小于-1(负偏)或大于1(正偏),则数据是高度偏斜。

如何处理有偏度数据

如果你的统计过程需要正态分布并且你的数据是倾斜的,你通常有三个选择:

  • 什么也不做:许多统计检验,包括t检验、方差分析和线性回归,对偏斜数据不太敏感。特别是如果偏斜是轻微或中度的,最好的办法就是忽略它。
  • 数据转换:通过对数据应用某种变换,可以调整数据的分布形状,使其更接近对称分布。常见的数据转换方法包括取对数、开方、平方根等。这些转换可以减小或消除数据的偏度。
  • 使用不同的模型:你可能想选择一个不假设正态分布的模型,非参数测试或广义线性模型可能更适合您的数据。比如说非参数方法:如果数据的偏度较大,而且无法通过简单的转换来纠正,可以考虑使用非参数统计方法。非参数方法不依赖于分布的假设,而是直接对数据进行分析,例如使用中位数作为代表性的位置测度,而不是平均值。
  • 分组分析:如果数据集中存在明显的子群体,可以考虑对数据进行分组分析。通过将数据分成多个子群体,并对每个子群体进行单独的分析,可以更好地了解数据的特征和偏度情况。
  • 针对特定问题采取相应的方法:根据具体的数据和分析目的,可以采用特定的方法来处理偏度数据。例如,在回归分析中,可以使用偏度稳定转换(skewness-stabilizing transformation)来调整数据的偏度,以满足回归模型的假设。

下表总结了一些常用数据变换:

总结

数据的偏度是用来衡量概率分布或数据集中不对称程度的统计量。它描述了数据分布的尾部在平均值的哪一侧更重或更长。通过计算偏度,可以更好地了解数据的分布特征,并在需要时采取适当的数据处理或分析方法。但是需要注意的是,偏度只是数据分布的一种度量,不能完全代表数据的整体特征,因此在分析数据时需要综合考虑其他统计指标和可视化方法。

https://avoid.overfit.cn/post/357fff159a5f41e68be87e56d6530726

作者:Dhaval Raval

目录
相关文章
|
消息中间件 网络协议 物联网
MQTT常见问题之物联网设备端申请动态注册时MQTT服务不可用如何解决
MQTT(Message Queuing Telemetry Transport)是一个轻量级的、基于发布/订阅模式的消息协议,广泛用于物联网(IoT)中设备间的通信。以下是MQTT使用过程中可能遇到的一些常见问题及其答案的汇总:
|
11月前
|
监控 开发者 Python
Python 默认 `logging` 打印级别详解
本文详细介绍了 Python `logging` 模块的默认打印级别及其配置方法。`logging` 模块支持 `DEBUG`、`INFO`、`WARNING`、`ERROR` 和 `CRITICAL` 五个日志级别,默认级别为 `WARNING`。文章通过示例代码展示了如何设置和使用不同日志级别,并介绍了进一步的配置选项,如日志格式和文件输出。
362 8
|
8月前
|
存储 小程序 前端开发
微信小程序与Java后端实现微信授权登录功能
微信小程序极大地简化了登录注册流程。对于用户而言,仅仅需要点击授权按钮,便能够完成登录操作,无需经历繁琐的注册步骤以及输入账号密码等一系列复杂操作,这种便捷的登录方式极大地提升了用户的使用体验
2447 12
|
缓存 关系型数据库 MySQL
MySQL登录时出现Access denied for user ‘root‘@‘localhost‘ (using password: YES)无法打开的解决方法
MySQL登录时出现Access denied for user ‘root‘@‘localhost‘ (using password: YES)无法打开的解决方法
22291 0
|
11月前
|
传感器 监控 供应链
IoT 和 IIoT 有什么区别
IoT(物联网)是指通过互联网连接各种日常设备,实现数据交换和远程控制的技术。而IIoT(工业物联网)则是专为工业领域设计的IoT,强调在制造业、能源等行业的应用,注重提高生产效率、优化流程和增强安全性。两者主要区别在于应用场景和目标不同。
|
机器学习/深度学习 数据采集 数据处理
多层感知机(MLP)解决二分类任务
分类任务: 开发一个神经网络,预测一氧化碳 (CO) 浓度是否超过某一阈值(CO(GT) 值的平均值)。这项任务涉及二元分类,即您的模型学会将实例分为两类:高于或低于阈值。阈值。要确定阈值,您必须首先计算CO(GT) 的平均值,其中不包括未知数据(缺失值)。然后,使用该阈值来预测网络预测的值是高于还是低于该阈值。但是您的网络应该能够处理缺失值。
|
安全
MQ的优缺点 及 不同MQ的区别
MQ的优缺点 及 不同MQ的区别
413 0
|
资源调度
机器人学 markdown数学公式常用语法
本文提供了Markdown中数学公式的常用语法,包括行内公式、行间公式、基本运算、矩阵、微积分、大小比较、开根号、表格、角标、头顶标、空格、括号、特殊字符、分式、文字、希腊字母以及分类括号的详细使用方法和示例。
476 1
|
前端开发 安全 Java
实现Spring Boot中的文件分片上传通常涉及到以下几个步骤和考虑的关键点
实现Spring Boot中的文件分片上传通常涉及到以下几个步骤和考虑的关键点
617 2
|
机器学习/深度学习 存储 人工智能
【AI】告别繁琐阅读,阿里通义智文阅读助手带您轻松畅游知识海洋!
阿里通义智文阅读助手是AI驱动的阅读辅助工具,能识别并解析PPT、图片、PDF等文档,提供摘要、关键词提取、语义理解与问答功能。用户可上传图片文件,工具自动识别文字,支持图表识别和全文搜索。此外,它还具有智能问答功能,能回答用户关于文档内容的问题。工具兼容多种文件格式,但有每日使用和存储限制。作者木头左邀请用户体验并期待下次分享。
【AI】告别繁琐阅读,阿里通义智文阅读助手带您轻松畅游知识海洋!