有些数据分析中常踩的坑，当心别掉进去-阿里云开发者社区

有些数据分析中常踩的坑，当心别掉进去

2017-07-07 1482

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

错把相关性当成因果性 correlation vs. causation

经典的冰淇凌销量和游泳溺水人数成正比的数据，这并不能说明冰淇凌销量的增加会导致更多的人溺水，而只能说明二者相关，比如因为天热所以二者数量都增加了。这个例子比较明显，说起来可能会有人觉得怎么会有人犯这样的错误，然而在实际生活、学习、工作中，时不时的就会有人犯这样的错误。

举个栗子

数据显示，当科比出手 10-19 次时，湖人的胜率是 71.5%;当科比出手 20-29 次时，湖人的胜率骤降到 60.8%;而当科比出手 30 次或者更多时，湖人的胜率只有 41.7%。

数据分析

　　图片来源： statisticshowto.com

幸存者偏差 survivorship bias

数据分析中看到的样本是“幸存了某些经历”才被观察到的，进而导致结论不正确。

比如比尔盖茨、乔布斯、扎克伯格都没有念完大学，所以大家都应该退学去创业。这一结论的最大问题在于那些退学而又没有成功的例子，很多时候我们是看不到的。另一方面，他们是因为牛逼才退学，而不是退学才牛逼的，看，相关性 / 因果性真是限魂不散。

再比如某打车软件发现新用户有 10 块钱优惠券，但是平均评价却只有 3 星。相反，第二次再用的时候没有优惠券了，评价却高达 4 星半。这说明，不给优惠券用户评价会更高，果然用户虽然爱用优惠券，但内心还是觉得便宜没好东西的?很明显，幸存者偏差在这个例子里体现在那些打一星二星评价的用户，之后可能就没有第二次了。更明显的，这个例子是我瞎扯的。

　　图片来源： Tumblr

样本跟整体存在着本质的不同

以知乎为例，会有种错觉人人年薪百万，985/211 起，各种 GFSBFM，中国收入水平直逼湾区码工。然而一方面这是幸存者偏差，知乎大 V 们的发声更容易被看到(看，幸存者偏差也是阴魂不散)。另一方面，不要小瞧知乎跟中国网民的差别，以及中国网民跟中国老百姓的差别——样本跟整体的差别。

类似的例子有水木的工作版块、步行街的收入和华人网站的贫困线。

　　图片来源： http://i.stack.imgur.com/yZQgZ.gif

过于追逐统计上的显著性 statistical significance

统计 101 告诉我们，要比较两组数是否不同，最基本的一点可以看它们的区别是不是统计上显著。

比如 LinkedIn 又要改版了(我为什么要说又呢)，有两个版本 A 和 B. 灰度测试发现，跟现有版本比起来，A 的日活比现有版本高 20%，但是统计不显著。而 B 的日活跟现有版本虽然只高了 3%，但是统计显著。于是 PM 拿出统计 101 翻到第二页说，来，咱们把统计显著的版本 B 上线吧。苦逼的数据科学家 DS 说，等一下!并不是所有时候都选统计显著的那一个，咱们再看看版本 A 的数据吧(具体分析略过一万字)。

很显然，这个例子也是我瞎扯的。