在数据统计中,有10个概念与大数据分析密切相关。这10个概念聚焦在数据预测准确性,交互分析等方面。
在之前的帖子中,我曾指出大数据中一个关键问题,即忽略了应用统计学。但是许多应用统计学中犀利的概念确实与大数据分析密不可分。为此,我觉得我得回答我上一贴的第二个问题:“当我们在思考大数据时代时,我们到底理解了哪些统计学概念?” 鉴于网络总是喜欢列“前十名单”,那我也就列出十个概念。不过如果人们感兴趣深入探讨的话,这些概念当然不会止步于十。当然,大家对于我的观点可能会有不同看法,我认为它们普遍来说也不是什么坏事。
1. 追求预测准确性,则平均多个预测模型
大体上讲,经常在Kaggle 比赛或Netflix奖中获胜的预测算法都是把多重模型混合到一起来执行预测的。这样做的意义在于,如果将多种预测算法进行平均(或取大多数投票),你可以在不舍去偏差的情况下减少变量。此做法早先有一个更简化的名字,因其基于引导样品以及建立多重预测方程,所以简化为Bagging(为bootstrap aggregating缩写)。“随机森林”---是另一个非常成功的基于一个类似分类树概念的预测算法。
2. 检测多个假设时,做多重测试校正
此论点指出了在进行多个检测中标准假设检验的问题。甚至当零检验是正确时,经典假设检验是为检验数据5%显著性而设计的。在纠正多重检验中,一个很普遍的选择就是使用错误发现率来控制所谓的显著性是错误发现的比率。人们喜欢这种方法是因为其可以视错误发现为发现信号中的干扰率。
Benjamini 和Hochber 已为错误发现率定义并提出了一套控制错误发现率的程序。同时,Storey 和Tibshirani也为错误发现率做了一份详细介绍。
3. 当你拥有空间、距离或时间测量数据时,你需要使其变为平滑曲线
这是统计学里最老生常谈的概念之一(回归是一个平滑的形式,Galton早已将其普及化)。我个人很喜欢局部加权散点图,如下图是一个局部加权散点图的示意图。
4. 在用电脑分析你的数据之前,记得先给数据制图
业余分析师最容易犯的错误就是直接去用些花哨的软件建一个模型去框住你的大数据集。如果不事先制图,你就会错过一些最显而易见的东西,比如安斯库姆四重奏。
制图有太多的表现形式,不过在比较多个技术测量中,Bland-Altman图(在基因组学中被称为MA-图)渐渐变得尤为重要。R提供了大量的图表选择, ggplot2使图表更美观。
5. 交互分析是真正了解数据集的最佳方法
此点跟第四点有关;如果你想真正理解一个数据集,你就得完完全全把它玩透。你得做表格,制图,识别突变,异常值,缺失值及其它数据问题。要做到这些你就得快速地进行交互数据分析。其中的一个一蹴而就的方法就是使用诸如Hive, Hadoop, 或Pig的数据分析软件完成整个数据的分析。但是还有一个更简单、更好、更经济的方法便是使用随机样本。就如Robert Gentleman 所说“让大数据变得越小越好,越快越好。”
6. 知道样本的真实大小
数据集大小很唬人。试想,你有一个白底黑圈像素图。当分辨率不断升高,文件的尺寸也会变大,但是图片的信息量并不会有变化(因此有了矢量图)。同理,在基因组学中,你测量的译出遗传信息(决定数据的大小)不是样本大小,而是个体数量。在社交网络中,社交网络中的人数也许并不是样本尺寸。如果网络很密集,那么样本相比下可能要小得多。总的来说,样本越大越好,但是样本大小与数据集大小并非一直密切相关。
7.除非你使用随机试验,否则混淆因素会让你夜不能寐。
在统计分析中混杂是一个非常基本的概念。它会导致伪相关, 这也是营养学研究非常艰难的原因。首先是很难随机化人们的饮食,然后饮食健康的人与饮食不健康的人在生活的其它重要方面也可能是不同的。大数据集中混杂因素可能是对技术变量的测量方法,再或者是随着时间在Google上变化的词条。无论什么时候,当你有了一个新发现时,你的第一反应应该是“什么是潜在混杂因素”。
8. 提前定义好成功的标准
这一点也许是最简单,但却是在统计学和决策理论中最关键的一点。有时候你的目标可能是发现一些新关联;如果你提前将此设为研究的目标,当然是个不错的想法。应用统计学教会我们的一件事就是:当发现结果与现实严重偏差时,请更改你的标准。所以当你发现相关关系时,不要以为你可以预测一个新结果或已发现了一个因果关系。
9. 确保你的编码和数据是可用的并把你的数据交给专业人士检查
很多人在我上一篇文章中指出,Reinhart and Rogoff 问题没有涉及大数据。但是即使是小数据例子,分析中也出现了一个错误。在大数据和合成模型中,这个问题就更加重要了。Mozilla Science 正在做一个关于数据分析编码校核的工作。但是你如果有朋友可以帮你检测你的代码,你分析中的各种小问题就会暴露出来。
10. 问题在先方案在后
应用统计学中的诱惑之一就是用你熟知的一个工具(回归)去解决所有问题(流行病问题)。在大数据中也有类似的用一个工具(如Hadoop, Pig, Hive, NOSQL databases, Distributed Computing, GPGPU等)解决所有问题的诱惑,然后很容易让我们忽略了我们是否能推断X与Y相关或者X能预测Y这些问题。
原文发布时间为:2015-08-08
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号