你真的看懂数据新闻了吗?

简介:

0?wx_fmt=png

前言


在分析领域中,因果性和相关性的使用是不精确的。人们倾向于互换使用这两个词,但并不知道隐藏其中的基本逻辑。显然,人们被这两个词的(英文)发音所迷惑,最终将它们用在错误的地方。但我要提醒注意的是,除了发音相似,这两个词并没有很多相同之处。事实上,它们的基本含义可谓相去甚远!


让我们通过以下的一些例子,来理解因果性和相关性之间的区别。分析下面这些场景,请回答在两个事件X和Y之间是否有因果性。答案在后面。


例1:X( 学生被录取的学院的级别)=> Y (毕业后的收入)


假设:精英商学院学生的收入比平均水平高。这些商学院是获得更好工作的原因吗?

0?wx_fmt=png


例2: X (抽烟)=> Y(精神压力水平)


假设:抽烟的人被发现精神压力更大。抽烟是导致压力的原因吗?

0?wx_fmt=png


例3:X(有孩子)=> Y (成熟度)


假设:人们在有了孩子后更成熟?有孩子是成熟度更高的原因吗?

0?wx_fmt=png

例4: X (海拔)=> Y(温度)


假设:我们观测到海拔较高时,温度较低。这意味着,海拔越高就越冷。那么,更高的海拔是导致更低温度的原因?

0?wx_fmt=png


希望上面的例子会触发你的学习欲望,并且让你兴奋地想多学一点。尽管这不是一个刚被发现的话题,但是人们仍没有切实掌握使用这些术语。因此,我试图用最简单的方式来解释因果性和相关性的各个方面。


本文中,我将解释因果性和相关性之间的区别,接着学习只有相关性还是有因果关系。如果你想在分析行业有扎实的基础,理解这个概念是非常必要的,而目前分析就像在一些黑匣子上工作。这些技术(因果性和相关性)不只是局限于分析行业,它们的应用遍及所有的行业。


一起来看看答案:


例1:不存在因果性。比如,只有那些从精英商学院中被选中的雄心勃勃且聪明的人,后来才获得比平均水平高的收入。因此,就算这些学生没有在那些精英商学院学习,他们仍旧可能得到比平均水平高的收入。于是,在这种情况下,我们有可替代的推理。


例2:不存在因果性。我们可以基于逆因果性来推翻假设。比如,较大的精神压力事实上能让一个人去抽烟。


例3:不存在因果性。再一次地,我们可以基于逆因果性来推翻假设。比如,只有成熟的人可能准备好了要生孩子。我们也可以用年龄作为潜在的原因来替代。更大的年龄导致想生孩子和更成熟。


例4:不存在因果性 。我们当然知道,逆因果性是不可能存在的。可替代的原因或相互独立的关系也是不存在的。

结论:如果你能正确地回答这所有的4个问题,你可以进入下一个概念了。假如你做错了任何一题,你也许需要在因果性问题上多加练习。


什么是建立因果关系的关键点?


建立因果关系的关键点对(X = > Y)是:


1、可替换推理:若存在一个可替换的原因(Z),Z确实对X和Y都有影响,即Z => X和Z => Y为真,就那么可以推翻假设X => Y。


2、逆因果性:如果可以用Y影响X来替换X影响Y,那么可以根据逆因果性来推翻假设X => Y。


3、相互独立:有时候X和Y也许是“被相关”,而再无其它联系。在这样的情况下,根据相互独立性可以推翻假设。


我们如何能确定得到因果性?


在类似制药领域中,建立因果对是非常重要的。这正是制药领域要完成足够多的研究来找到因果对的原因。在开始数学推导前,要理解下面的一些定义。


1、随机实验数据:一种实验通常被定义成在不同条件下随机分配观测单元,条件随着对观测单元的处理而不同。“处理”(treatment)是一个通用的术语,在医疗应用中最容易翻译(例如,不同情况对病患得到不同的治疗),但是它也适用于其它领域。


2、观测数据:如果没有太多的钱做随机测试,就不得不在已有数据资源上下功夫。在不受控的情况下,这样的事件已经发生了。因此,选择不是随机的。


由观测数据推导出因果关系是非常困难的,且不具有结论性。在因果关系上要获得具有结论性的结果,需要做随机测试。


为什么观测数据不具有结论性?

  1. 观测数据不具有结论性,是因为观测数据不是随机选择的。我们永远无法从单个的因果对上得出结论。


2. 例如,如果大量从精英商学院毕业的学生获得更高收入;这不能推出因果性,因为选择是基于最初的表现。


3.无论如何,如果随机从精英商学院中选取学生,这个分析将会在建立因果性上更具有结论性。


为什么不是每一次都进行随机测试来建立因果性?


你将会因为多种原因被要求利用观测数据而不是测试数据工作。


第一个原因是,做测试需要资金。例如,如果你的假设是给消费者免费的iPhone,这个活动会对苹果公司的销售带来增量收益。在不知道任何因果关系时,做这个测试当然是个耗资巨大的提议。


第二个原因是,不是所有的测试在道德上都是被允许的。例如,如果想知道抽烟是否对精神压力产生影响,需要让正常人抽烟,而这从道德上来说是不被允许的。


在那种情况下,如何利用观测数据建立因果性?


在这一具体问题上,已经完成了大量的研究。这些方法的整体目标,是消除任何未观测到变量的影响。下面,将介绍一些众所周知的技术:


一、面板模型(普通回归):若至少在一个维度上,不可观测到的维度是不变的,那么用这个方法就非常方便。例如,如果在时间上,不可观测到的维度是不变的,就可以试着建立一个面板模型,从不可观测到的维度上分离出偏差。比如,以商学院=>高收入为例子,假设不可观测到的维度不随着时间而改变。


来试试这个方法。

  1. 下面是个Y(收入)的回归方程,以精英商学院(下标T)和不可观测到的维度(下标U)为变量


2. 但是,因为不可观测到的维度不随着时间而改变,可以将方程简化如下:


3. 现在,可以通过随着时间产生的差别来消除不可观测到因素


现在,问题是在商学院和收入之间找到因果性的确切系数。


二、模拟控制:观测数据最大的问题是在同一个数据点,无法同时获取得到处理和未经处理的数据。比如,在前面提到的抽烟例子里, 一个人不能同时既是抽烟者又是不抽烟者。


但是,如果可以为得到处理的数据在未经处理组找到看起来很像的数据,然后在相似数据中比较得到处理的反应结果。这是在如今的行业中应用最普遍的方法。


这种相似性可以在近邻算法、k-d树或其它算法中找到。打个比方,两个人,他们年龄一样,性别一样,收入一样等等。其中一人开始抽烟,另一人则不抽烟。现在,如果其它条件没有变化,那么可以在一段时间内比较他们的压力水平。

0?wx_fmt=jpeg


从理论上讲,这个方法听起来让人非常兴奋,它通常是难以创建纯模拟或虚拟控制,有时它能产生也许不正确的结论。这事实上是将来另外一篇不同文章的主题。


三、辅助变量(IV):这或许是最难实施的。下面是实施这技术的步骤:


  1. 找到因果对。


2.找到跟原因有关的属性,但是这跟通过回归因果对获得的误差无关。这个变量就是已知的辅助变量(IV)。


3.现在利用辅助变量(IV)估计原因变量。


4.试试回归估计因果对来找到因果性的实际参数。

0?wx_fmt=png


到目前为止,我们完成了什么?


利用观测数据,在因果对中使用任何回归技术都有偏差系数。用这种方式,可以得到无偏差的估计。比如,在抽烟——精神压力对中,我们也许认为会被逆因果性所影响。


现在,如果可以找到和卷烟消费量而不是和精神压力有关的信息,也许能找到真正的关系。通常,辅助变量(IV)是基于调整的变量。例如,我们发现税收管理只提高了卷烟的价格,导致整个模型里的卷烟消费量下降。现在可以试试按上面提到的4个步骤来找找精神压力因果性。



4. 回归不连续性设计:这是我最喜爱的选择。它使得观测数据真正接近实验设计。


在下图中,我们发现一个维度,其上有一个峰值,该峰值位于得到处理和未经处理的群体比例上。假设,我们想测试在课程结束时,奖学金对大学生成绩的影响。注意,奖学金是提供给在入学考试中得分在80分以上的学生。发生扭转的地方就在这里:因为这些学生已经很聪明,未来他们也许继续保持顶尖水平。因此,这是一个难以破解的因果性。


0?wx_fmt=png

但是,如果把成绩刚刚在80分以下(比如说79.9分)的学生和成绩刚刚在80分之上(比如说80.1分)的学生在学期结束时的成绩做一比较。假设那些得分为79.9的学生和得分为80.1的学生不会有很大的差别,只有奖学金的作用可以改变。这就是所谓的准随机选择。


因此,得到的结果会很接近完美的因果性结论。使用这种方式的唯一挑战,在于得到这样一个维度是非常难的,而它能在得到处理和未经处理的群体之间进行很好的划分。


结束语


在分析领域中,建立因果性也许是最难的任务。得到错误因果性的概率异常高。本文章讨论的关键概念将较好地帮助你解决因果性问题。


就以这些幽默的话题结束这篇文章吧。这里有些图片显示了相关性和因果性的不同。

0?wx_fmt=jpeg

虚假的相关性:

0?wx_fmt=jpeg


原文发布时间为:2015-07-06

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
【视觉智能产品速递——人物动漫化能力上新】
VIAPI—人物动漫化!新增风格版本发布。 产品功能:人物动漫化——输入一张人物图像,生成其二次元卡通形象,返回卡通化后的结果图像。 🔥🔥🔥 本次更新风格:国风工笔画、港漫风
491 1
【视觉智能产品速递——人物动漫化能力上新】
|
4月前
|
数据可视化
实时榜单排行计算
实时榜单排行计算
120 0
实时榜单排行计算
|
8月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
互联网整个行业都在陷入被动且尴尬的局面。去年开始流行的“内卷”一词,恰如其分的描述了互联网的现状,比如抖音开始做外卖,微信强推视频号,一直硝烟弥漫的电商市场,更是激战在社区团购上。
|
9月前
|
数据采集 自然语言处理 JavaScript
基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等
基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等
基于50W携程出行攻略构建事件图谱(含码源):交通工具子图谱、订酒店吃饭事件图谱等
|
11月前
|
数据采集 数据处理 vr&ar
CVPR 2022 | 将X光图片用于垃圾分割,港中大(深圳)探索大规模智能垃圾分类
CVPR 2022 | 将X光图片用于垃圾分割,港中大(深圳)探索大规模智能垃圾分类
106 0
|
人工智能 编解码 搜索推荐
【文末福利】2023 年值得关注的 6 种插画趋势
【文末福利】2023 年值得关注的 6 种插画趋势
【文末福利】2023 年值得关注的 6 种插画趋势
|
数据采集 数据可视化 数据挖掘
电影榜单分析系统
电影榜单分析系统
电影榜单分析系统
|
存储 分布式计算 算法
2022云栖精选—小图撬动大图:千亿规模用户群体网络的子图挖掘与应用
摘要:本文整理自阿里巴巴数据中台数据资产平台的何兴盛(河竹),在云栖大会“图计算及其应用”分论坛的分享。本篇内容主要分为四个部分: 1. 业务场景中的“大”图 2. 基于子图挖掘的设备识别解决方案 3. 离线子图采样系统Graph View 4. 总结
2022云栖精选—小图撬动大图:千亿规模用户群体网络的子图挖掘与应用
怎样判断你长得像哪位明星人物?
为大家推荐一个免费的接口,可以测试出你最像哪位明星人物,需要准备的不多,就需要你的一张自拍照,既可以完成。
483 0
怎样判断你长得像哪位明星人物?
|
机器学习/深度学习 数据采集 自然语言处理
2022搜狐校园 情感分析 × 推荐排序 算法大赛 baseline
2022搜狐校园 情感分析 × 推荐排序 算法大赛 baseline
752 0
2022搜狐校园 情感分析 × 推荐排序 算法大赛 baseline