统计学教会我们的10件事

简介:

在数据统计中,有10个概念与大数据分析密切相关。这10个概念聚焦在数据预测准确性,交互分析等方面。


在之前的帖子中,我曾指出大数据中一个关键问题,即忽略了应用统计学。但是许多应用统计学中犀利的概念确实与大数据分析密不可分。为此,我觉得我得回答我上一贴的第二个问题:“当我们在思考大数据时代时,我们到底理解了哪些统计学概念?” 鉴于网络总是喜欢列“前十名单”,那我也就列出十个概念。不过如果人们感兴趣深入探讨的话,这些概念当然不会止步于十。当然,大家对于我的观点可能会有不同看法,我认为它们普遍来说也不是什么坏事。


1. 追求预测准确性,则平均多个预测模型


大体上讲,经常在Kaggle 比赛或Netflix奖中获胜的预测算法都是把多重模型混合到一起来执行预测的。这样做的意义在于,如果将多种预测算法进行平均(或取大多数投票),你可以在不舍去偏差的情况下减少变量。此做法早先有一个更简化的名字,因其基于引导样品以及建立多重预测方程,所以简化为Bagging(为bootstrap aggregating缩写)。“随机森林”---是另一个非常成功的基于一个类似分类树概念的预测算法。


2. 检测多个假设时,做多重测试校正


此论点指出了在进行多个检测中标准假设检验的问题。甚至当零检验是正确时,经典假设检验是为检验数据5%显著性而设计的。在纠正多重检验中,一个很普遍的选择就是使用错误发现率来控制所谓的显著性是错误发现的比率。人们喜欢这种方法是因为其可以视错误发现为发现信号中的干扰率


Benjamini 和Hochber 已为错误发现率定义并提出了一套控制错误发现率的程序。同时,Storey 和Tibshirani也为错误发现率做了一份详细介绍。


3. 当你拥有空间、距离或时间测量数据时,你需要使其变为平滑曲线


这是统计学里最老生常谈的概念之一(回归是一个平滑的形式,Galton早已将其普及化)。我个人很喜欢局部加权散点图,如下图是一个局部加权散点图的示意图。



4. 在用电脑分析你的数据之前,记得先给数据制图


业余分析师最容易犯的错误就是直接去用些花哨的软件建一个模型去框住你的大数据集。如果不事先制图,你就会错过一些最显而易见的东西,比如安斯库姆四重奏。


制图有太多的表现形式,不过在比较多个技术测量中,Bland-Altman图(在基因组学中被称为MA-图)渐渐变得尤为重要。R提供了大量的图表选择, ggplot2使图表更美观。



5. 交互分析是真正了解数据集的最佳方法


此点跟第四点有关;如果你想真正理解一个数据集,你就得完完全全把它玩透。你得做表格,制图,识别突变,异常值,缺失值及其它数据问题。要做到这些你就得快速地进行交互数据分析。其中的一个一蹴而就的方法就是使用诸如Hive, Hadoop, 或Pig的数据分析软件完成整个数据的分析。但是还有一个更简单、更好、更经济的方法便是使用随机样本。就如Robert Gentleman 所说“让大数据变得越小越好,越快越好。”



6. 知道样本的真实大小


数据集大小很唬人。试想,你有一个白底黑圈像素图。当分辨率不断升高,文件的尺寸也会变大,但是图片的信息量并不会有变化(因此有了矢量图)。同理,在基因组学中,你测量的译出遗传信息(决定数据的大小)不是样本大小,而是个体数量。在社交网络中,社交网络中的人数也许并不是样本尺寸。如果网络很密集,那么样本相比下可能要小得多。总的来说,样本越大越好,但是样本大小与数据集大小并非一直密切相关。


7.除非你使用随机试验,否则混淆因素会让你夜不能寐。


在统计分析中混杂是一个非常基本的概念。它会导致伪相关, 这也是营养学研究非常艰难的原因。首先是很难随机化人们的饮食,然后饮食健康的人与饮食不健康的人在生活的其它重要方面也可能是不同的。大数据集中混杂因素可能是对技术变量的测量方法,再或者是随着时间在Google上变化的词条。无论什么时候,当你有了一个新发现时,你的第一反应应该是“什么是潜在混杂因素”。



8. 提前定义好成功的标准


这一点也许是最简单,但却是在统计学和决策理论中最关键的一点。有时候你的目标可能是发现一些新关联;如果你提前将此设为研究的目标,当然是个不错的想法。应用统计学教会我们的一件事就是:当发现结果与现实严重偏差时,请更改你的标准。所以当你发现相关关系时,不要以为你可以预测一个新结果或已发现了一个因果关系。


9. 确保你的编码和数据是可用的并把你的数据交给专业人士检查


很多人在我上一篇文章中指出,Reinhart and Rogoff 问题没有涉及大数据。但是即使是小数据例子,分析中也出现了一个错误。在大数据和合成模型中,这个问题就更加重要了。Mozilla Science 正在做一个关于数据分析编码校核的工作。但是你如果有朋友可以帮你检测你的代码,你分析中的各种小问题就会暴露出来。


10. 问题在先方案在后


应用统计学中的诱惑之一就是用你熟知的一个工具(回归)去解决所有问题(流行病问题)。在大数据中也有类似的用一个工具(如Hadoop, Pig, Hive, NOSQL databases, Distributed Computing, GPGPU等)解决所有问题的诱惑,然后很容易让我们忽略了我们是否能推断X与Y相关或者X能预测Y这些问题。


原文发布时间为:2015-08-08

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
阿萨聊测试:如何用Postman查看HTTP消息相关内容?
阿萨聊测试:如何用Postman查看HTTP消息相关内容?
619 0
阿萨聊测试:如何用Postman查看HTTP消息相关内容?
|
负载均衡 容灾 数据管理
TiDB中PD调度器概述
【2月更文挑战第28天】PD调度器是TiDB的关键组件,负责全局元数据管理、负载均衡和自动容灾恢复。采用分布式架构,通过Raft协议保证高可用性,提供API接口供外部系统使用。它能智能调度数据分布,确保集群性能和稳定性,适用于高可用、高性能场景。理解PD调度器有助于优化TiDB集群,未来将持续进化以提供更佳服务。
|
自然语言处理 算法 小程序
|
5月前
|
数据采集 缓存 监控
京东商品API技术对接手册(2025版)
本接口文档涵盖基础服务能力、核心接口规范、业务场景实现及开发者注意事项。包括请求性能、数据覆盖、同步机制、认证鉴权、流量控制等内容,适用于商品信息获取、价格监控、库存预警等场景,助力开发者高效对接系统。
|
7月前
|
消息中间件 NoSQL Redis
水镜 OMS 系统:全渠道电商中台的设计与实现
水镜OMS是全渠道电商中台,整合线上线下资源,统一管理订单、库存与营销。支持天猫、京东等10+平台接入,通过订单路由与库存共享,实现高效订单处理。系统采用SpringCloud Alibaba架构,结合Redis、Kafka、分库分表等技术,保障高并发下稳定运行,日均订单量超10万,峰值达5000TPS,助力企业提升运营效率与数字化能力。
405 0
|
存储 JavaScript API
Vuex的魔法宝典:掌握State, Getters, Mutations和Actions,让状态管理不再是难题
【8月更文挑战第27天】Vuex是Vue.js应用程序的状态管理工具,通过集中式存储管理组件状态并确保状态按照预定义的规则发生变化。
428 0
你真的会提交缺陷单吗?俗称报bug
你真的会提交缺陷单吗?俗称报bug
483 0
你真的会提交缺陷单吗?俗称报bug
Linux Command split 切割文件
Linux Command split 切割文件
提升个人工作技能
提升个人工作技能
1358 6
|
存储 计算机视觉
Opencv的基本操作(一)图像的读取显示存储及几何图形的绘制
本文介绍了使用OpenCV进行图像读取、显示和存储的基本操作,以及如何绘制直线、圆形、矩形和文本等几何图形的方法。
Opencv的基本操作(一)图像的读取显示存储及几何图形的绘制