每一位数据科学家都应掌握的理论是什么?

简介: 针对热门议题——《检测真假数据科学家之二十问》,英特尔数据科学家Hould认为,还有一问亦不可少,那就是:“什么是中心极限定理?它为什么重要?”你可能会心中暗喜:中心极限定理,我学过啊?可它为什么如此重要,你了然吗?

【导语】Jean-Nicholas Hould是就职于英特尔的数据科学家。针对热门议题——《检测真假数据科学家之二十问》,他认为,还有一问亦不可少,那就是:什么是中心极限定理?它为什么重要?你可能会心中暗喜:中心极限定理,我学过啊?可它为什么如此重要,你了然吗?善于考究的,请阅读原文,不爱折腾的,请看编译文章(80%+内容为译者独立编写)

真假数据科学家检验之二十问

早在2009年,Google首席经济学家Hal Varian就给出了一个非常著名的论断:“在未来10年,统计学家将是最性感的职业”。那个时候,大数据还没有热炒起来,因此,对于这个职业,很多人也就是“不明觉历”而已。

之后,大数据时代来临,“数”万“树”梨花开,各种数据概念扑面而来。在2012 年,Babson商学院资深教授Thomas H. Davenport等人在文字上小做修饰,在《哈佛商业周刊》刊文指出“在21 世纪,数据科学家是最性感的职业”(如图1所示)。在本质上,Davenport提出“数据科学家”,基本等同于Varian所说的“统计学家”

一时间,很多人都“数据科学家”身份自居,粉墨登场于各种场所。

e7cd64df9f32c256e3fb49f5c0a2ff560e5dda4f

1  商业周刊网站截图

于是,就有“好事者”(此处为褒义)不乐意了,说,那些自称数据科学家的人,来,来,来,先回答我20个问题再说,合格了,再说自己为数据科学家。于是,就有了业内非常有名的《检测真假数据科学家之二十问》,该文20161月发表于Kdnuggets网站,作者是Andrew FoggImport.io网站创始人。文章发表后,在当月的Kdnuggets阅读量,排行第一,可见引起的共鸣不小。

我们抽取20问其中的几问,让读者感受一下:

1.        请解释一下正则化(regularization)是什么,它为什么非常有用?

2.        请解释一下查准率(Precision)和查全率(recall)的概念。它们与ROC曲线有什么关系?

3.        根本原因分析(root cause analysis, RCA)是什么?

4.        统计功效(statistical power)是什么?

5.        请解释一下重采样(resampling)方法是什么,它为什么很有用?它又有什么局限性。

6.        什么是选择性偏差(selection bias)?它为什么很重要,又该如何避免它?

7.        如何使用极值理论、蒙特卡洛模拟或数理统计(或其它理论),来正确估计一个非常罕见事件的发生几率呢?

……

不能不说,这些问题涉及范围广泛而又不失犀利,一些“伪”数据科学家,在这些问题的“拷”问下,很快就会原形毕露,“两股战战,几欲先走”。

英特尔数据科学家Jean-Nicholas Hould觉得这20问,还不够给力!至少还得加一问:什么是中心极限定理(CLT)?为什么它很重要?

这是每个数据科学家都应该懂的理论!为什么是这样?下面我们议议这个话题。

什么是中心极限定理(CLT)?

对数理统计知识有所了解的读者,可能会知道,在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,那么总的影响可以看作是服从正态分布的。中心极限定理,事实上,就是从数学上证明了这一现象。

为了说明中心极限定理的含义,假设研究对象为一个国家的啤酒饮客,现在我们就想弄明白一件非常简单的事儿:饮客的平均年龄是多少?很显然,直接解决这个问题,是非常困难的,因为我们不大可能有精力、有时间以将整个人口为研究对象,逐一去做问卷调查。

取代全国范围内的调查,更为合适的方法是,我们收集100啤酒饮客的数据,作为样本,通过这些样本,我们可以得出一个均值,然后据此推断全国啤酒饮客的平均年龄。对于第一组100位啤酒饮客,其均值年龄可能是35。下一组100位啤酒饮客,其均值可能是39。再下一组的均值可能是37。以此类推。当我们收集越来越多的样本均值时,这样均值点就构成了一个抽样分布(sampling distribution)。比如说,前面提到的353937,就是这个分布中的三个观察点。

随着样本均值点收集的数量越来越多,那么这些均值形成的分布,大致可形成一个钟形曲线的,也就是说为正态分布,这就是所谓的中心极限定理的形象解释。

比较学术化中心极限定理点的描述是:设从均值为μ、方差为σ^2。(有限的)任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布,近似服从均值为μ、方差为σ^2/n 的正态分布。

针对这个定理,我们需要注意两点:(1)如果我们收集的样本数量足够大,样本的均值趋近于总体的均值。(2中心极限定理并不是说原始总体(比如说一个国家的啤酒饮客)是符合正态分布的,而是说它的一组组抽样的均值,是符合正态分布的

当样本的容量越大(比如说,啤酒饮客抽样数从100变成1000),那么这个抽样均值的分布,就越像正态分布,如图2所示。换句话说,大量相互独立的随机变量,其均值的分布,是以正态分布为极限的。

86dd6a52ad3aaf743bc84cac1f609c019352aba2

抽样分布之中心极限定理

中心极限定理最牛的地方在于,不管原始随机变量遵循的是什么分布,这个定理都是成立的。这个形式对数理统计特别有用!

 

中心极限定理在计量经济学中有着广泛的应用。应用案例之一,就是保险公司的保费确定。根据中心极限定理,含有n个风险单位的随机样本的平均损失(样本的均值),是符合正态分布,这个结论对保险费率的厘定极为重要。保险公司不需要针对某一个人制定保险标准,而是拿某个阶层的群体(可视为一个个抽样集合),来作为研究对象,并参照同期银行利率,经过精算后,来照制定保费。倘若没有中心极限定理作为理论依据,保险公司采纳的各种精算模型是无法建立的。

为什么这个定理如此重要?

我们知道,统计学最本质的作用就是,用样本估计总体

中心极限定理作为统计学中一个非常重要的概念,它核心作用在于,可以让每个数据科学家能对数据做出统计推断。甚至在不需要特征化原来总体信息的情况下(也就是说,原始总体遵循何种分布是无关紧要的),数据科学家依然能够借助样本,来量化评估它所代表的总体。

比如说,在数理统计中,有两个常用的概念:置信区间(confidence interval)与假设检验(Hypothesis Testing)。前者说的是,由样本统计量所构造的总体参数的估计区间,它可以告诉我们,总体值很可能落在相对于估计值的什么位置。而后者说的是,根据一定假设条件,由样本推断总体的一种方法。这两个概念背后的理论基础,事实上,就是中心极限定理。

 

当然,中心极限定理的作用,并不仅仅局限于从样本推断整体。事实上,它的作用可以细分为如下4种类型:

(1)如果我们有一个样本的有效信息,那么我们可以准确地推断整体(常规作用)。

(2)如果我们有总体的信息,那么我们可以对某个有效样本,来做较为准确的有关这个总体的假设。

(3)如果我们有总体的信息和一个有效的样本,那么我们可以准确地推断这个样本是否来自这个总体。

(4)如果我们有两个不同样本的有效信息,那么我们还可以准确地推断出两个样本是否来自相同的总体。

因此,作为一个合格的数据科学家,应该深入理解这个定理。只有这样,才能在“数据科技(Data TechnologyDT”时代,游刃有余地处理样本和总体之间的关系,这就是它为什么这么重要的原因。

 

延伸思考与阅读

迈尔-舍恩伯格在其著作《大数据时代》中,有一个非常重要的观点:大数据可以做到“n=all(这里n代表采集的数据量),也就是“样本=总体”。

我们知道,统计学的核心目的在于,利用小样本,评估大总体。如果大数据时代真能做到“n=all”,的确,统计学的意义将大打折扣。

但梦想很丰满,现实很骨感!n=all”常常仅是对数据的一种假设,往往不过是一个颇有诱惑力的假象而已。笔者曾撰写过一篇文章:来自大数据的反思:需要你读懂的10个小故事》,对该论断有所讨论,请感兴趣的读者,可以移步阅读。

如果在大多数情况下,我们都无法做到“样本=总体”,那么依据样本,评估总体的需求,依然会迫切存在。于是,作为统计学里非常重要的定理——中心极限定理,还是值得每一位数据科学家掌握的。

 

译者介绍:张玉宏,著有《品味大数据》一书

 

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
算法 Java C语言
算法界最难的一道题,我解出来了!
算法界最难的一道题,我解出来了!
|
10月前
|
机器学习/深度学习 人工智能 搜索推荐
大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?(1)
大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?
175 0
|
10月前
|
机器学习/深度学习 人工智能 异构计算
大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?(2)
大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?
205 0
|
12月前
|
索引
完全依赖基本论证,牛津大学26岁博士生利用业余时间证明素数猜想
完全依赖基本论证,牛津大学26岁博士生利用业余时间证明素数猜想
|
人工智能 搜索推荐 JavaScript
「数学天才」陶哲轩:GPT-4无法攻克一个未解决的数学问题,但对工作有帮助
「数学天才」陶哲轩:GPT-4无法攻克一个未解决的数学问题,但对工作有帮助
146 0
|
12月前
|
机器学习/深度学习 人工智能 算法
王怀民院士:图灵计算模型仍是最深刻的理论基础,是新科学基础的基点
王怀民院士:图灵计算模型仍是最深刻的理论基础,是新科学基础的基点
|
算法 编译器 测试技术
一位嵌入式工程师,硬核单片机编程思想
没有思想的裸程序就如一副人体骨架,有个人形,但没有人样,骨骼之间的关节都是靠胶水或拉线连接起来的,生硬而呆板。如果给骨架包上皮肉,加上灵魂,我们就会惊叹:啊!这是帅哥,这是美女!因为骨架活了。
161 0
一位嵌入式工程师,硬核单片机编程思想
|
机器学习/深度学习 算法 C++
Interview:算法岗位面试—上海某公司算法岗位(偏机器学习,互联网金融行业)技术面试考点之数据结构相关考察点—斐波那契数列、八皇后问题、两种LCS问题
Interview:算法岗位面试—上海某公司算法岗位(偏机器学习,互联网金融行业)技术面试考点之数据结构相关考察点—斐波那契数列、八皇后问题、两种LCS问题
怎样才能挑战数学权威——也谈《统一无穷理论》
怎样才能挑战数学权威——也谈《统一无穷理论》
260 0