人人都会点数据分析 | 了解统计指标与异常值的简单处理

简介: 人人都会点数据分析 | 了解统计指标与异常值的简单处理

上一篇文章简单学习了什么是数据,这次来看看什么是统计指标,进一步了解更多数据分析相关的基础知识。

什么是统计指标

体现总体数量特征的概念和数值

根据数据分析的目的不同,统计指标也会变化

分析招聘数据的时候:技能、薪资、岗位年限

分析用户转化率:网站浏览量、着陆页、跳失率

分析理财产品的时候:往期的业绩、风险系数、年化收益

统计指标根据他体现的内容分为两大类:总量指标,相对指标

总量指标

描述特定条件下的总规模、总水平或工作总量的指标

GDP、销售总额、总人口数

相对指标

描述的是相对关系,而不是总体情况

是指两个有联系的现象数值相比得到的比率

比例:各数据 / 总比 %

比率:数据想:数据项

倍数:突出上升、增长幅度

环比增长率(短期):(本期数 - 上期数)/ 上期数 * 100 %

同比增长率(长期):(本期数 - 同期数)/ 同期数 * 100 %

注意:环比更注重短期的涨幅表现,同比更注重长期的涨幅表现

除了以上的两大类外还有三个统计指标值得我们学习,分别是集中趋势指标、离散趋势指标、分布形态

统计指标:集中趋势指标  -  平均指标

平均值

用一个数字显示总体一般水平就为平均指标也叫集中趋势指标,最常用的集中趋势指标就是平均值

平均值 = 所有数据相加 / 数据的个数

在通常的数据处理中经常会出现异常的数据,比如数据特别大或特别小就会影响平均值,这样得出的平均值具有一定的误导性,平均值对于异常数并不敏感

我和马大大的月薪平均过亿...

正是因为这样情况,所以还有一个指标 - 中位数,需要了解一下

中位数

中位数是指按顺序排列后,居于中间位置的数

数据为奇数:位于(n+1)/ 2 位置的数为中位数

数据为偶数:位于最中间的两位数相加 / 2 为中位数

这样的数据更具有代表性

众数

众数是指出现次数最多的数值,反应的是局部特征、密集度

统计指标:离散趋势指标

上面讲完了集中趋势指标,现在来了解下什么是离散趋势指标

离散趋势指标是体现内部差异度的指标,主要有三类:极差、平均查、标准差

极差

极差体现数据内部最大的差异情况

极差 = 最大值 - 最小值

但是极差不能体现数据内部真正的数据差异情况,体现数据内部真正的差异情况我们使用平均差

平均差

平均差体现的是一组数据与平均值差异的平均差异

平均差 = |每个数据项 - 均值|的总和 / 数据项个数

数据项与平均值的差距越大,数据越分散,反之越集中

不过这里需要注意,当一组数据中存在数据异常值的时候,就容易导致误差,所以针对这种情况,就有了对离散值更敏感的标准差

标准差

标准差是相比与平均差更能代表离散程度的指标

标准差 = ((|每个数据项 - 均值|)平方的总和 / 数据项个数)开方

使用标准差能更直观的了解差异程度,是我们最常用的离散指标

统计指标:分布形态

分布形态指的是图表化呈现出来的形态

常见的形态有:左偏分布、右偏分布、正态分布

左偏分布:平均值是偏左的,众数(也就是峰值)是偏右的

右偏分布:平均值是偏右的,众数(也就是峰值)是偏左的

正态分布:平均值是居中的,众数(也就是峰值)是居中的

异常值

上面在介绍各类指标的时候,一直都有提到一个会影响我们判断的概念,就是异常值,那么怎么识别异常值呢?

异常值一般是指与平均值偏差极大或极小的值,也叫离群值

上面也同时提到了一般是指,这个判断标准要取决于具体分析的业务对象

例如:周期性的产业,比如旅游行业是有淡旺季之分的,旺季的数据通常能达到淡季的两倍以上,这样的数据就不能视为异常值

识别异常值

一般的业务数据通过观察异常值与整体数据的差距可以识别异常值

通常情况下我们采用的方法是通过计算与平均的倍数,异常值与平均值计算出来的倍数通常远大于(小于)其他数据与平均值计算出来的倍数,这样就可以简单的识别出哪些数据项是异常值了。

至于如何处理异常值,一般要看具体的业务分析

异常值判定

1、对于错误记录的异常值,直接修改为正常数据即可,例如将工资数据错误记录为负数,我们直接修改即可

2、对于错误添加的异常值,直接删除即可,例如在预处理时,将年龄数据混入了工资数据中,我们就可以直接删除了

3、对于正确、真实的异常值,这个需要根据具体业务分析,需要判断这个异常值是否反映特殊的事件。

例如,在基金行情的走势图中存在因为分红导致的基金走势波动大,如果我们是为了分析该基金的行情走势,那么我们就不能处理这个异常值。如果我们分析数据是为了量化交易,那么就要修改调整这个异常值

还有就是对于周期性的数据,例如上面提到的旅游数据,对于这类数据我们是不做处理的

处理异常值

1、对于错误数据,我们可以填充空值、填充样本平均值

2、对于正确、真实的数据,我们可以根据实际情况调整、数值 * 需要调整的比率

例如之前提供的例子中,当基金因为分红导致当天下跌了 8%,对于这样的数据,我们可以将之后的价格调整为 收盘价 *(1+0.08)

这次我们简单了解了什么是统计指标,以及异常值的简单处理,现在我们对数据分析的基础知识已经有了比较好的认识了,那么是时候体系化的了解数据分析的整体流程,为之后数据分析工具的学习打下基础了。

好了,今天的文章就到这里,我们下次再会~

有知有行

[ 完 ]

相关文章
|
7月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
201 1
|
机器学习/深度学习 数据采集 数据可视化
R语言 一种功能强大的数据分析、统计建模 可视化 免费、开源且跨平台 的编程语言
R语言 一种功能强大的数据分析、统计建模 可视化 免费、开源且跨平台 的编程语言
428 1
|
3天前
|
运维 监控 安全
公司监控软件:SAS 数据分析引擎驱动网络异常精准检测
在数字化商业环境中,企业网络系统面临复杂威胁。SAS 数据分析引擎凭借高效处理能力,成为网络异常检测的关键技术。通过统计分析、时间序列分析等方法,SAS 帮助企业及时发现并处理异常流量,确保网络安全和业务连续性。
21 11
|
6月前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
7月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
7月前
|
算法 数据挖掘
R语言——AVOCADO“(异常植被变化检测)算法(1990-2015数据分析)监测森林干扰和再生(含GEE影像下载代码)
R语言——AVOCADO“(异常植被变化检测)算法(1990-2015数据分析)监测森林干扰和再生(含GEE影像下载代码)
111 1
|
6月前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在运行数据分析任务时,底层依赖服务alisa.olap.submitjob出现了异常,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
机器学习/深度学习 数据可视化 算法
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
59 0
|
7月前
|
机器学习/深度学习 运维 算法
Python数据分析中的异常检测与处理方法
在Python数据分析中,异常数据是一个常见但又十分重要的问题。本文将介绍几种常见的异常检测与处理方法,包括基于统计学方法、机器学习方法以及深度学习方法。通过对异常数据的有效检测与处理,可以提高数据分析的准确性和可信度,从而更好地指导业务决策。
|
7月前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
807 1