每一位数据科学家都应掌握的理论是什么?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 针对热门议题——《检测真假数据科学家之二十问》,英特尔数据科学家Hould认为,还有一问亦不可少,那就是:“什么是中心极限定理?它为什么重要?”你可能会心中暗喜:中心极限定理,我学过啊?可它为什么如此重要,你了然吗?

【导语】Jean-Nicholas Hould是就职于英特尔的数据科学家。针对热门议题——《检测真假数据科学家之二十问》,他认为,还有一问亦不可少,那就是:什么是中心极限定理?它为什么重要?你可能会心中暗喜:中心极限定理,我学过啊?可它为什么如此重要,你了然吗?善于考究的,请阅读原文,不爱折腾的,请看编译文章(80%+内容为译者独立编写)

真假数据科学家检验之二十问

早在2009年,Google首席经济学家Hal Varian就给出了一个非常著名的论断:“在未来10年,统计学家将是最性感的职业”。那个时候,大数据还没有热炒起来,因此,对于这个职业,很多人也就是“不明觉历”而已。

之后,大数据时代来临,“数”万“树”梨花开,各种数据概念扑面而来。在2012 年,Babson商学院资深教授Thomas H. Davenport等人在文字上小做修饰,在《哈佛商业周刊》刊文指出“在21 世纪,数据科学家是最性感的职业”(如图1所示)。在本质上,Davenport提出“数据科学家”,基本等同于Varian所说的“统计学家”

一时间,很多人都“数据科学家”身份自居,粉墨登场于各种场所。


1  商业周刊网站截图

于是,就有“好事者”(此处为褒义)不乐意了,说,那些自称数据科学家的人,来,来,来,先回答我20个问题再说,合格了,再说自己为数据科学家。于是,就有了业内非常有名的《检测真假数据科学家之二十问》,该文20161月发表于Kdnuggets网站,作者是Andrew FoggImport.io网站创始人。文章发表后,在当月的Kdnuggets阅读量,排行第一,可见引起的共鸣不小。

我们抽取20问其中的几问,让读者感受一下:

1.        请解释一下正则化(regularization)是什么,它为什么非常有用?

2.        请解释一下查准率(Precision)和查全率(recall)的概念。它们与ROC曲线有什么关系?

3.        根本原因分析(root cause analysis, RCA)是什么?

4.        统计功效(statistical power)是什么?

5.        请解释一下重采样(resampling)方法是什么,它为什么很有用?它又有什么局限性。

6.        什么是选择性偏差(selection bias)?它为什么很重要,又该如何避免它?

7.        如何使用极值理论、蒙特卡洛模拟或数理统计(或其它理论),来正确估计一个非常罕见事件的发生几率呢?

……

不能不说,这些问题涉及范围广泛而又不失犀利,一些“伪”数据科学家,在这些问题的“拷”问下,很快就会原形毕露,“两股战战,几欲先走”。

英特尔数据科学家Jean-Nicholas Hould觉得这20问,还不够给力!至少还得加一问:什么是中心极限定理(CLT)?为什么它很重要?

这是每个数据科学家都应该懂的理论!为什么是这样?下面我们议议这个话题。

什么是中心极限定理(CLT)?

对数理统计知识有所了解的读者,可能会知道,在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,那么总的影响可以看作是服从正态分布的。中心极限定理,事实上,就是从数学上证明了这一现象。

为了说明中心极限定理的含义,假设研究对象为一个国家的啤酒饮客,现在我们就想弄明白一件非常简单的事儿:饮客的平均年龄是多少?很显然,直接解决这个问题,是非常困难的,因为我们不大可能有精力、有时间以将整个人口为研究对象,逐一去做问卷调查。

取代全国范围内的调查,更为合适的方法是,我们收集100啤酒饮客的数据,作为样本,通过这些样本,我们可以得出一个均值,然后据此推断全国啤酒饮客的平均年龄。对于第一组100位啤酒饮客,其均值年龄可能是35。下一组100位啤酒饮客,其均值可能是39。再下一组的均值可能是37。以此类推。当我们收集越来越多的样本均值时,这样均值点就构成了一个抽样分布(sampling distribution)。比如说,前面提到的353937,就是这个分布中的三个观察点。

随着样本均值点收集的数量越来越多,那么这些均值形成的分布,大致可形成一个钟形曲线的,也就是说为正态分布,这就是所谓的中心极限定理的形象解释。

比较学术化中心极限定理点的描述是:设从均值为μ、方差为σ^2。(有限的)任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布,近似服从均值为μ、方差为σ^2/n 的正态分布。

针对这个定理,我们需要注意两点:(1)如果我们收集的样本数量足够大,样本的均值趋近于总体的均值。(2中心极限定理并不是说原始总体(比如说一个国家的啤酒饮客)是符合正态分布的,而是说它的一组组抽样的均值,是符合正态分布的

当样本的容量越大(比如说,啤酒饮客抽样数从100变成1000),那么这个抽样均值的分布,就越像正态分布,如图2所示。换句话说,大量相互独立的随机变量,其均值的分布,是以正态分布为极限的。


抽样分布之中心极限定理

中心极限定理最牛的地方在于,不管原始随机变量遵循的是什么分布,这个定理都是成立的。这个形式对数理统计特别有用!

 

中心极限定理在计量经济学中有着广泛的应用。应用案例之一,就是保险公司的保费确定。根据中心极限定理,含有n个风险单位的随机样本的平均损失(样本的均值),是符合正态分布,这个结论对保险费率的厘定极为重要。保险公司不需要针对某一个人制定保险标准,而是拿某个阶层的群体(可视为一个个抽样集合),来作为研究对象,并参照同期银行利率,经过精算后,来照制定保费。倘若没有中心极限定理作为理论依据,保险公司采纳的各种精算模型是无法建立的。

为什么这个定理如此重要?

我们知道,统计学最本质的作用就是,用样本估计总体

中心极限定理作为统计学中一个非常重要的概念,它核心作用在于,可以让每个数据科学家能对数据做出统计推断。甚至在不需要特征化原来总体信息的情况下(也就是说,原始总体遵循何种分布是无关紧要的),数据科学家依然能够借助样本,来量化评估它所代表的总体。

比如说,在数理统计中,有两个常用的概念:置信区间(confidence interval)与假设检验(Hypothesis Testing)。前者说的是,由样本统计量所构造的总体参数的估计区间,它可以告诉我们,总体值很可能落在相对于估计值的什么位置。而后者说的是,根据一定假设条件,由样本推断总体的一种方法。这两个概念背后的理论基础,事实上,就是中心极限定理。

 

当然,中心极限定理的作用,并不仅仅局限于从样本推断整体。事实上,它的作用可以细分为如下4种类型:

(1)如果我们有一个样本的有效信息,那么我们可以准确地推断整体(常规作用)。

(2)如果我们有总体的信息,那么我们可以对某个有效样本,来做较为准确的有关这个总体的假设。

(3)如果我们有总体的信息和一个有效的样本,那么我们可以准确地推断这个样本是否来自这个总体。

(4)如果我们有两个不同样本的有效信息,那么我们还可以准确地推断出两个样本是否来自相同的总体。

因此,作为一个合格的数据科学家,应该深入理解这个定理。只有这样,才能在“数据科技(Data TechnologyDT”时代,游刃有余地处理样本和总体之间的关系,这就是它为什么这么重要的原因。

 

延伸思考与阅读

迈尔-舍恩伯格在其著作《大数据时代》中,有一个非常重要的观点:大数据可以做到“n=all(这里n代表采集的数据量),也就是“样本=总体”。

我们知道,统计学的核心目的在于,利用小样本,评估大总体。如果大数据时代真能做到“n=all”,的确,统计学的意义将大打折扣。

但梦想很丰满,现实很骨感!n=all”常常仅是对数据的一种假设,往往不过是一个颇有诱惑力的假象而已。笔者曾撰写过一篇文章:来自大数据的反思:需要你读懂的10个小故事》,对该论断有所讨论,请感兴趣的读者,可以移步阅读。

如果在大多数情况下,我们都无法做到“样本=总体”,那么依据样本,评估总体的需求,依然会迫切存在。于是,作为统计学里非常重要的定理——中心极限定理,还是值得每一位数据科学家掌握的。

 

译者介绍:张玉宏,著有《品味大数据》一书

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
算法 Android开发 Python
LeetCode 周赛上分之旅 #43 计算机科学本质上是数学吗?
学习数据结构与算法的关键在于掌握问题背后的算法思维框架,你的思考越抽象,它能覆盖的问题域就越广,理解难度也更复杂。在这个专栏里,小彭与你分享每场 LeetCode 周赛的解题报告,一起体会上分之旅。
64 0
LeetCode 周赛上分之旅 #43 计算机科学本质上是数学吗?
带你读《计算思维导论实验 与习题指导》之一:初识计算思维
本书围绕《计算思维导论》主教材,设计了13个实验,并针对前8章内容设计了习题,包括单选题、多选题、填空题、判断题等。通过实验和习题,能帮助学生:了解计算思维的概念和计算机发展简史;理解进制转换、字符编码和中文编码等相关知识,掌握数制转换的方法和口诀;了解计算机硬件并学会配置与组装计算机,同时能够对简单故障进行判断和排除;掌握上网浏览、查询资料、收发电子邮件等信息时代的必备知识,同时学会局域网的搭建、WWW和FTP服务器的构建;掌握利用Access创建数据库的方法,并能初步设计与管理数据库;掌握命题符号化方法,以及基本的推理理论,并能利用真值表、等值演算等方法进行简单的逻辑推理等能力。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
探索数据科学:从理论到实践的技术感悟
【5月更文挑战第31天】本文通过作者在数据科学领域的学习与实践经历,探讨了理论与实际应用之间的桥梁。文章首先回顾了数据科学的基础知识和核心概念,然后通过案例分析展示了如何将抽象的理论知识转化为解决实际问题的工具。最后,作者分享了个人对数据科学未来发展的看法和建议,旨在为同行提供参考和启发。
|
4月前
|
数据可视化 决策智能 Python
【江西省研究生数学建模竞赛】题目之二 国际“合作-冲突”的演化规律研究 建模方案及参考文献
本文介绍了江西省研究生数学建模竞赛题目之二“国际‘合作-冲突’的演化规律研究”的建模方案和参考文献,探讨了如何通过博弈论和决策树模型来分析和预测国家间的合作与冲突行为,并提出了评估国际环境和应对突发事件的策略。
55 0
【江西省研究生数学建模竞赛】题目之二 国际“合作-冲突”的演化规律研究 建模方案及参考文献
|
自然语言处理
[软件工程导论(第六版)]第4章 形式化说明技术(课后习题详解)
[软件工程导论(第六版)]第4章 形式化说明技术(课后习题详解)
|
Python
从❤️庄周梦蝶❤️的寓言故事中感悟出一个科学真理:真假之间只相差一个 e^(iπ)
从❤️庄周梦蝶❤️的寓言故事中感悟出一个科学真理:真假之间只相差一个 e^(iπ)
100 0
|
人工智能 搜索推荐 JavaScript
「数学天才」陶哲轩:GPT-4无法攻克一个未解决的数学问题,但对工作有帮助
「数学天才」陶哲轩:GPT-4无法攻克一个未解决的数学问题,但对工作有帮助
200 0
|
机器学习/深度学习 人工智能 算法
一个10年符号主义学者的深度讨论:如何理性看待ChatGPT?(2)
一个10年符号主义学者的深度讨论:如何理性看待ChatGPT?
|
机器学习/深度学习 人工智能 自然语言处理
一个10年符号主义学者的深度讨论:如何理性看待ChatGPT?(1)
一个10年符号主义学者的深度讨论:如何理性看待ChatGPT?
146 0
|
存储
1.3 数字化信息编码与数据表示 计算机专业理论基础知识要点整理
1.3 数字化信息编码与数据表示 计算机专业理论基础知识要点整理
317 0
1.3 数字化信息编码与数据表示 计算机专业理论基础知识要点整理