人人都会点数据分析 | 了解统计指标与异常值的简单处理

简介: 人人都会点数据分析 | 了解统计指标与异常值的简单处理

上一篇文章简单学习了什么是数据,这次来看看什么是统计指标,进一步了解更多数据分析相关的基础知识。

什么是统计指标

体现总体数量特征的概念和数值

根据数据分析的目的不同,统计指标也会变化

分析招聘数据的时候:技能、薪资、岗位年限

分析用户转化率:网站浏览量、着陆页、跳失率

分析理财产品的时候:往期的业绩、风险系数、年化收益

统计指标根据他体现的内容分为两大类:总量指标,相对指标

总量指标

描述特定条件下的总规模、总水平或工作总量的指标

GDP、销售总额、总人口数

相对指标

描述的是相对关系,而不是总体情况

是指两个有联系的现象数值相比得到的比率

比例:各数据 / 总比 %

比率:数据想:数据项

倍数:突出上升、增长幅度

环比增长率(短期):(本期数 - 上期数)/ 上期数 * 100 %

同比增长率(长期):(本期数 - 同期数)/ 同期数 * 100 %

注意:环比更注重短期的涨幅表现,同比更注重长期的涨幅表现

除了以上的两大类外还有三个统计指标值得我们学习,分别是集中趋势指标、离散趋势指标、分布形态

统计指标:集中趋势指标  -  平均指标

平均值

用一个数字显示总体一般水平就为平均指标也叫集中趋势指标,最常用的集中趋势指标就是平均值

平均值 = 所有数据相加 / 数据的个数

在通常的数据处理中经常会出现异常的数据,比如数据特别大或特别小就会影响平均值,这样得出的平均值具有一定的误导性,平均值对于异常数并不敏感

我和马大大的月薪平均过亿...

正是因为这样情况,所以还有一个指标 - 中位数,需要了解一下

中位数

中位数是指按顺序排列后,居于中间位置的数

数据为奇数:位于(n+1)/ 2 位置的数为中位数

数据为偶数:位于最中间的两位数相加 / 2 为中位数

这样的数据更具有代表性

众数

众数是指出现次数最多的数值,反应的是局部特征、密集度

统计指标:离散趋势指标

上面讲完了集中趋势指标,现在来了解下什么是离散趋势指标

离散趋势指标是体现内部差异度的指标,主要有三类:极差、平均查、标准差

极差

极差体现数据内部最大的差异情况

极差 = 最大值 - 最小值

但是极差不能体现数据内部真正的数据差异情况,体现数据内部真正的差异情况我们使用平均差

平均差

平均差体现的是一组数据与平均值差异的平均差异

平均差 = |每个数据项 - 均值|的总和 / 数据项个数

数据项与平均值的差距越大,数据越分散,反之越集中

不过这里需要注意,当一组数据中存在数据异常值的时候,就容易导致误差,所以针对这种情况,就有了对离散值更敏感的标准差

标准差

标准差是相比与平均差更能代表离散程度的指标

标准差 = ((|每个数据项 - 均值|)平方的总和 / 数据项个数)开方

使用标准差能更直观的了解差异程度,是我们最常用的离散指标

统计指标:分布形态

分布形态指的是图表化呈现出来的形态

常见的形态有:左偏分布、右偏分布、正态分布

左偏分布:平均值是偏左的,众数(也就是峰值)是偏右的

右偏分布:平均值是偏右的,众数(也就是峰值)是偏左的

正态分布:平均值是居中的,众数(也就是峰值)是居中的

异常值

上面在介绍各类指标的时候,一直都有提到一个会影响我们判断的概念,就是异常值,那么怎么识别异常值呢?

异常值一般是指与平均值偏差极大或极小的值,也叫离群值

上面也同时提到了一般是指,这个判断标准要取决于具体分析的业务对象

例如:周期性的产业,比如旅游行业是有淡旺季之分的,旺季的数据通常能达到淡季的两倍以上,这样的数据就不能视为异常值

识别异常值

一般的业务数据通过观察异常值与整体数据的差距可以识别异常值

通常情况下我们采用的方法是通过计算与平均的倍数,异常值与平均值计算出来的倍数通常远大于(小于)其他数据与平均值计算出来的倍数,这样就可以简单的识别出哪些数据项是异常值了。

至于如何处理异常值,一般要看具体的业务分析

异常值判定

1、对于错误记录的异常值,直接修改为正常数据即可,例如将工资数据错误记录为负数,我们直接修改即可

2、对于错误添加的异常值,直接删除即可,例如在预处理时,将年龄数据混入了工资数据中,我们就可以直接删除了

3、对于正确、真实的异常值,这个需要根据具体业务分析,需要判断这个异常值是否反映特殊的事件。

例如,在基金行情的走势图中存在因为分红导致的基金走势波动大,如果我们是为了分析该基金的行情走势,那么我们就不能处理这个异常值。如果我们分析数据是为了量化交易,那么就要修改调整这个异常值

还有就是对于周期性的数据,例如上面提到的旅游数据,对于这类数据我们是不做处理的

处理异常值

1、对于错误数据,我们可以填充空值、填充样本平均值

2、对于正确、真实的数据,我们可以根据实际情况调整、数值 * 需要调整的比率

例如之前提供的例子中,当基金因为分红导致当天下跌了 8%,对于这样的数据,我们可以将之后的价格调整为 收盘价 *(1+0.08)

这次我们简单了解了什么是统计指标,以及异常值的简单处理,现在我们对数据分析的基础知识已经有了比较好的认识了,那么是时候体系化的了解数据分析的整体流程,为之后数据分析工具的学习打下基础了。

好了,今天的文章就到这里,我们下次再会~

有知有行

[ 完 ]

相关文章
|
6月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
189 1
|
机器学习/深度学习 数据采集 数据可视化
R语言 一种功能强大的数据分析、统计建模 可视化 免费、开源且跨平台 的编程语言
R语言 一种功能强大的数据分析、统计建模 可视化 免费、开源且跨平台 的编程语言
349 1
|
5月前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
6月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
5月前
|
机器学习/深度学习 数据可视化 算法
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
53 0
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
682 1
|
6月前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
6月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
370 1
|
6月前
|
数据挖掘 Python
python数据分析——业务指标量化
业务指标量化是衡量企业运营效果的重要手段,通过具体的数据和数值,可以更加直观地了解企业的运营状况,为企业决策提供有力的数据支持。
144 1
|
6月前
|
监控 搜索推荐 数据挖掘
python数据分析——业务指标分析
业务指标分析是企业运营中不可或缺的一环,通过对各项关键指标的深入剖析,我们能够更好地了解企业的运营状况,发现潜在问题,进而制定相应的策略来优化业务流程、提升经营效率。 在业务指标分析中,我们首先要明确分析的目的和范围。是为了评估整体业务健康状况,还是针对某一具体环节进行优化?明确了目的后,我们需要收集相关的数据,这些数据可能来源于不同的业务系统和数据库,因此数据的整合和清洗也是分析过程中的重要步骤。 接下来,我们要选择合适的分析方法。比如,对于销售数据,我们可以采用时间序列分析来观察销售趋势;对于用户行为数据,我们可以使用用户画像和路径分析来洞察用户需求和行为习惯。
201 1