有些数据分析中常踩的坑,当心别掉进去

简介:

错把相关性当成因果性 correlation vs. causation

经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所以二者数量都增加了。这个例子比较明显,说起来可能会有人觉得怎么会有人犯这样的错误,然而在实际生活、学习、工作中,时不时的就会有人犯这样的错误。

举个栗子

数据显示,当科比出手 10-19 次时,湖人的胜率是 71.5%;当科比出手 20-29 次时,湖人的胜率骤降到 60.8%;而当科比出手 30 次或者更多时,湖人的胜率只有 41.7%。

数据分析

  图片来源: statisticshowto.com

幸存者偏差 survivorship bias

数据分析中看到的样本是“幸存了某些经历”才被观察到的,进而导致结论不正确。

比如比尔盖茨、乔布斯、扎克伯格都没有念完大学,所以大家都应该退学去创业。这一结论的最大问题在于那些退学而又没有成功的例子,很多时候我们是看不到的。另一方面,他们是因为牛逼才退学,而不是退学才牛逼的,看,相关性 / 因果性真是限魂不散。

再比如某打车软件发现新用户有 10 块钱优惠券,但是平均评价却只有 3 星。相反,第二次再用的时候没有优惠券了,评价却高达 4 星半。这说明,不给优惠券用户评价会更高,果然用户虽然爱用优惠券,但内心还是觉得便宜没好东西的?很明显,幸存者偏差在这个例子里体现在那些打一星二星评价的用户,之后可能就没有第二次了。更明显的,这个例子是我瞎扯的。

20160708021901839.jpg

  图片来源: Tumblr

样本跟整体存在着本质的不同

以知乎为例,会有种错觉人人年薪百万,985/211 起,各种 GFSBFM,中国收入水平直逼湾区码工。然而一方面这是幸存者偏差,知乎大 V 们的发声更容易被看到(看,幸存者偏差也是阴魂不散)。另一方面,不要小瞧知乎跟中国网民的差别,以及中国网民跟中国老百姓的差别——样本跟整体的差别。

类似的例子有水木的工作版块、步行街的收入和华人网站的贫困线。

20160708021901713.jpg

  图片来源: http://i.stack.imgur.com/yZQgZ.gif

过于追逐统计上的显著性 statistical significance

统计 101 告诉我们,要比较两组数是否不同,最基本的一点可以看它们的区别是不是统计上显著。

比如 LinkedIn 又要改版了(我为什么要说又呢),有两个版本 A 和 B. 灰度测试发现,跟现有版本比起来,A 的日活比现有版本高 20%,但是统计不显著。而 B 的日活跟现有版本虽然只高了 3%,但是统计显著。于是 PM 拿出统计 101 翻到第二页说,来,咱们把统计显著的版本 B 上线吧。苦逼的数据科学家 DS 说,等一下!并不是所有时候都选统计显著的那一个,咱们再看看版本 A 的数据吧(具体分析略过一万字)。

很显然,这个例子也是我瞎扯的。

20160708021901205.jpg

  图片来源: pinimg.com

不做数据可视化,以及更可怕的:做出错误或者带误导性的数据可视化

比如 @谢科 这个回答里提到的

「数据会说谎」的真实例子有哪些? - 谢科的回答

20160708021901754.jpg

在趋势图中,为了说明增长趋势多明显,把 Y 调成不从 0 开始。这样差距会看起来很大,增长很大,但是如果把 Y 轴从 0 开始看的话,会显得基本没有差距。

20160708021901461.jpg

  图片来源: amazonaws.com

(一下步就是要编排一个 Twitter 的例子了 23333,因为数据分析表明,有 Twitter 公司这样的例子读起来会更有趣)

数据分析提供的结果和建议不具有可行性

Twitter 通过分析文本数据发现……

算了,我编不出来,由此可见,不具有可行性的结果虽然是“理论正确‘的分析结果,然并卵……

20160708021903735.jpg

  图片来源: twimg.com

不做数据分析

别笑,据某公司 PM 说,这是真的。

最后的大招:如何解释 p-value

具体我就不讲了, 讲错了我明天还怎么面对老板和同事啊。

有兴趣解释 p-value 的欢迎留言。

20160708021906123.jpg

  图片来源: blogspot.com

20160708021908346.png

  扣小米, 经济学博士生,在德国

不少容易出现的错误在这个问题里都已经介绍过: 「数据会说谎」的真实例子有哪些? - 数据

我只补充一个,就是要保证研究的 可重复性(reproducibility) ,也就是说别人用同样的数据和同样的方法,能够得出同样的结果。这样的好处是能够保证分析结果的客观,没有人为篡改数据,而且能够很容易的发现哪里出现了问题。

为了保证可重复性,应该坚持对数据每一步的处理都有记录。如果你使用的是写代码的软件,当然就不存在这个问题。不过如果使用的是点击操作的软件,比如 Excel(非 VBA),那就要小心。Excel 虽然方便,但是处理完数据后,很快就会忘了之前对数据做了些什么,如果之后出现什么问题就很难再查找了。

还有原始数据要保存好,我一般都会把原始数据(网上收集的、下载的、别人传过来的等等)都备份一下,这样之后如果要追根溯源也可以找到数据最开始的出处。

重要代码多保存几份,不管是放到云上还是本地硬盘。或者用 GitHub。

“可重复性”对数据科学方面的专业人士来说可能是常识,但在其他领域的学术研究中,不少人会忽视这一点。

因此,在 Coursera 上开数据分析课程的几位统计学教授,专门在课上强调了这个问题,并在这篇文章中对可重复性研究的方法做了简单介绍:

Instead of research on reproducibility, just do reproducible research · Simply Statistics





====================================分割线================================


本文转自d1net(转载)

目录
相关文章
|
1月前
|
NoSQL JavaScript 前端开发
断点调试:开发者的时空穿梭术,提升编程效率必备技巧
断点调试:开发者的时空穿梭术,提升编程效率必备技巧
9 0
|
4月前
|
程序员
程序员的养生秘籍:如何在代码世界中找到健康的平衡
程序员的养生秘籍:如何在代码世界中找到健康的平衡
47 0
|
11月前
|
XML 测试技术 数据格式
【实测】有奇效!用测试用例设计的路子去学习新知识点。
【实测】有奇效!用测试用例设计的路子去学习新知识点。
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
扩散模型背后数学太难了,啃不动?谷歌用统一视角讲明白了
扩散模型背后数学太难了,啃不动?谷歌用统一视角讲明白了
190 0
|
uml 开发者 Windows
推荐5款冷门小工具,看一看有没有你喜欢的?
每个人的电脑中都会安装很多软件,可能还保留着很多不为人知的冷门软件。不过虽然冷门,但绝不意味着低能,相反很多冷门软件的功能十分出色。闲话少说,接下来我就给大家推荐5款冷门小工具,看一看有没有你喜欢的。
144 0
推荐5款冷门小工具,看一看有没有你喜欢的?
|
Java C语言
计算机教育中缺失的一课,劝学弟学妹们一句,一定要趁早补上,工作后会事半功倍!
各位学弟学妹们好,作为稍微年长的我(岁月是把杀猪刀啊),今天就给大家补补课。 在大学里的,我们上的计算机专业课程一般都是像操作系统、编译原理、计算机组成原理、计算机网络这些理论课程,还有一些像C语言、Java、.Net这些可以实践的课程,甚至还有可能让你焊一个收音机,但是对于一些基本习惯却很容易被忽略,需要学弟学妹们自行摸索。
178 0
计算机教育中缺失的一课,劝学弟学妹们一句,一定要趁早补上,工作后会事半功倍!
|
程序员
程序员十大常规内卷操作,你学废了吗?
现阶段内卷已经成为互联网行业的专有名词,在很多公司,内卷的程度则代表着员工的努力程度,本文尝试教授十招程序员内卷操作,学完过后,帮助你干啥啥不行,内卷第一名。
|
存储 运维 Kubernetes
独家交付秘籍之招式拆解(第一回)
上一回说到经历种种交付难题的王小锤一行人,意外发现一本交付秘籍,打开了新世界。本次他们带着具体交付场景来到阿里云,与交付宗师阿莫探讨秘籍中的招式以及招式背后的秘密。
独家交付秘籍之招式拆解(第一回)
|
人工智能 移动开发 自动驾驶
用大白话来聊聊:5G到底能干啥?
用大白话来聊聊:5G到底能干啥?
137 0
用大白话来聊聊:5G到底能干啥?
|
架构师 Java 大数据
程序员如何跳出35岁魔咒,史上最全思维图收集解救你
时常有人在知乎、百度等平台抛出问题:程序员过了 35 岁或 40 岁是不是就失去了竞争力,要转管理岗了吗? 100offer 在2017年对其平台上的5844 位技术岗位求职者做了一个抽样调查,得出了如下统计结果: 10年以上的求职者,也就是“中年程序员”求职者的比例达到了10%,有了小幅攀升。
2060 0