[原创连载]跟数据分析师从0开始学数据-10

简介:

上次跟大家介绍的预测,并没有深入讨论,以后有时间,我在整理一个实例系列的文章,跟大家深入讨论这些技术。今天讲第二个任务,异常检测。异常检测也叫孤立点检测,或离群点检测。

如我前文所说,我们天天监控店铺数据,目的就是为了发现异常并及时预警,如果一切正常,那咱们就啥事儿都没有。万一有异常数据出现,那我们就要做进一步的分析,找出导致异常的罪魁祸首。

异常检测,操作和观测起来异常简单,用箱线图或者散点图即可。

大家看下图,是某行业按销量排名前4004个宝贝的价格散点图。非常明显,有一个孤立点,居然卖12W+。

8294704ac538e0f07505b4451bf3cd7b315bf968

当我们发现这种孤立点的时候,必须要考虑的是:

1、这个数据是否有误?

2、如果数据无误,是什么原因?

辨别是否有误,就需要调出源数据进行检查。这个相当简单,只要做核对,以及根据逻辑和常理来判别即可。但也有无法判定的情况。

我们先说第一个情况。如果我们判断是数据出错,而我们又无法拿到正确的数据,此时我们就需要对这个异常值进行处理。

异常值(数据有误的情况下)处理的方法:

1、更正。2、删除。3、替换。

下面是通过生e经下载下来的数据,共有325行数据。

eedb323d4f1dc2e3aa8546416602fcbd7f8b2448

对成交量、销售额、高质宝贝数分别作出散点图(我是做演示说明,不要再跟我纠结这个数据准不准等问题了)

da5d2ddaf481c81a648e406fdf9ae5e466af128b

销售额这里明显有一个孤立点。如果我们不处理这个孤立点的话,可能会影响我们后续的分析结果。

d4772aa16850664dd6eed159a8bb5923717d3af2

可以直接定位到这个点的位置,在散点图看一下,是在第77个点,那马上就可以定位到excel的第78行。

a5d94f9b0c259b91d5b16332de892382ae6cc7f5

经过筛选,可以直接拿出毛衣这组数据。

1107bc93bdd1144b9a5242514eedb2c5088fdc2f

(为什么散点图是第77个点,而excel中是第78行?这个问题其实之前一直有人问我。但如果阅读到这一篇,还不能独立思考这个问题的话,那请先回过头去看前面的7篇)

经过和生e经的数据对比,这个数据没有错,生e经上面就是这个数据。但是根据逻辑和常识,可以立马判定这个数据是个错误值。

“为什么能立马判定这个是错误值?”如果不明白的话还是自己想啊,哈哈。

确定这个数据是个错误值后,我们也无法更正这个数据了。那要如何处理这个数据呢?已经无法更正了,就剩余两个方法:1、删除。2、替换。

删除的话,这里不适用。一删就少了一个月的数据了。那这里就用替换。

怎么替换?那方法就多的去了。最简单的方法是用平均值替换法,平均值替换也有多种技巧。

方法1、取这个值的前后两个数据的平均值,也就是(935086015+894448225)/2=914767120,用这个数字来替换,就要比之前的靠谱多了。

方法2、先剔除错误行,然后算出平均售价,用平均售价乘以错误行的成交量即可。算得173*5292179=915546967

理论上面来讲应该是方法2比较准确一点。我就用方法2替换这个错误值。替换后的散点图如下。

b4e57a1dd52b32f95d15cb88cfc7f34784c68e0c

异常值就不见了,我们就可以对这组数据做分析了。

另一种情况,如果这个孤立点不是错误值呢?也就是数据无误,那这个时候,我们就要深入分析了。

看下面这个案例吧!虽然特别简单,但可以表达清楚即可。

某店的销售额,每天记录下来,通过观察即可发现(如果是淘宝,数据魔方,生e经等工具都有这个数据的,在网上就可以看到)

发现18号销售额突然下降。依然是先判别是否错误值。判别无误。

a489b6c713842fb86aed05e2b415746527b971f7

数据无错的情况下,我们要找原因(这个案例真心太简单,将就着吧)

第一步是分解指标,找到关键指标。

2d821877b704d1b7b5ac3ccdaa79d2705bdc2401

通过分解销售额=客单价X转化率X访客数

这时,我们需要检查的就是这三个指标。

客单价目测没有问题。

91f78fc2c536b97454c8d3447be72ae59e7a19fd

转化率非常明显,在18号有一个最小值。

b5c4db55d6f0f3219e4f9215e36049d1609910a1

访客数在8号居然是有升无减。。那锁定转化率的问题。

f18440d101a80adebd5e39f3f30b2935db2d3149

事情还没完。。我们接着分解转化率。

7757315cbf7470ae2c3921c185392b6ba28e5f43

最终只要细细看下这些转化率指标即可。当然也可以想办法把指标分得更细,再观察。余下的事情就留给读者思考和实践吧。我也到点了。

这一篇我介绍得很简单,大家也不要被我误导了。其实异常检测,不仅仅能做这么简单的事情,很多我们熟知的功能其实就用的异常检测。比如:

1、站长通过日志中的孤立点,发现入侵者

2、老师通过IQ测试分析孤立点,发现天才or白痴

3、气象站人员通过孤立点,发现灾害or极端天气

4、淘宝or银行or电信,发现欺诈or异常行为

等等。


原文发布时间为:2018-09-18

本文来自云栖社区合作伙伴“零一”,了解相关信息可以关注“零一”。

相关文章
|
24天前
|
数据采集 数据可视化 数据挖掘
多维数据分析:使用Pandas进行复杂的数据操作和聚合
【4月更文挑战第12天】Pandas是Python的强大数据分析库,提供DataFrame数据结构进行多维数据处理。本文介绍了使用Pandas进行多维数据分析的流程:1) 导入数据(如CSV、Excel);2) 数据预处理,包括缺失值处理和类型转换;3) 数据探索,利用describe()、hist()、plot()等进行统计和可视化;4) 数据操作,如筛选、排序和分组;5) 数据聚合,通过groupby()和agg()进行计算。文中还给出了电商数据分析的案例,展示Pandas在实际应用中的价值。
|
28天前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
|
2月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
130 0
|
3月前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
5天前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
15 0
|
5天前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
17 0
|
9天前
|
机器学习/深度学习 安全 数据挖掘
数据分享|函数型数据分析部分省市新冠疫情数据
数据分享|函数型数据分析部分省市新冠疫情数据
16 0
|
16天前
|
数据可视化 数据挖掘 Linux
如何在Linux部署DataEase数据分析服务并实现无公网IP远程分析内网数据信息
如何在Linux部署DataEase数据分析服务并实现无公网IP远程分析内网数据信息
|
19天前
|
数据可视化 数据挖掘
R语言分段回归数据数据分析案例报告
R语言分段回归数据数据分析案例报告
12 0
|
20天前
|
数据挖掘 定位技术
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
基于出租车GPS轨迹数据的研究:出租车行程的数据分析
30 0