盖茨基金:成也数据,败也数据

简介:

0

比尔·盖茨是美国企业成功故事的典型代表。这个绝顶聪明的孩子,大学中途退学,创办自己的软件公司。而且他们公司开发的软件,最终用在了世界90% 的电脑上,比尔也因此赚到了数十亿美元的财富。后来,他退出江湖,将大部分财富捐献给慈善事业。比尔以自己和妻子的名义成立了“比尔&梅琳达·盖茨基金会”(Bill& Melinda Gates Foundation)。而且我们很高兴地看到该基金会在许多领域进行了大胆投资。它涉足的领域包括在发展中国家进行疟疾预防,在美国进行中学改革,以及对艾滋病(HIV/AIDS)的研究。盖茨基金会因依靠数据来做出明智的决定,从而赢得了良好的声誉。


但这并不意味着他们不会犯错。盖茨在千禧年开始之际,大力支持小型学校运动,他在全美范围内选出了一些学校,并往这些学校投入了上亿美元。证据A 是当时的一项统计发现:在全美表现最好的学校中,小型学校所占的比例不均衡。例如,在宾夕法尼亚州,按照五年级的阅读成绩评出的前50 所学校中,12% 是小型学校。要是学生的成绩跟学校的规模无关,那么规模大的学校在这50 所名校中所占的比例应该是小型学校的四倍。因此,学校规模被认为是影响教学质量的重要因素——每个年级最多不能超过100 名学生。而盖茨基金会设计的一套改造方案,就是将大型学校拆分成更小、更高效的小型学校。(文摘编者注:文中学校应该有大、中、小三类,否则不能根据“大型学校数量是小型学校数量4倍”和“12%是小型学校”的事实,得出小型学校教学质量好的结论,你觉得呢?)


举例来说,2003 年新学年伊始,在华盛顿的芒特莱克泰勒斯高中(MountlakeTerrace High School)读书的1800 名学生发现,自己的学校被分成了五所小型学校,学校的名字分别叫做“发现学校”、“改革学校”、“复兴学校”等。不过,校址没有改变,还是在以前的大楼里。盖茨基金会教育处执行主任汤姆·范德· 阿尔克(Tom Vander Ark)解释说:“大多数穷人家的孩子,不得不进规模大的学校念书,在那里没人认识他们,他们被甩进了一条难以出头的死路……小型学校只不过营造了一个(比大型学校)更好的成长环境。在那里,比较容易形成积极的氛围,产生较高的期望值,也更容易优化课程设置,改进教学质量。”


十年以后,盖茨基金会却发生了彻底的转变,它不再将学校的规模视为解决学生成绩问题的唯一方法,而开始致力于设计富有新意的课程以及提升教学质量。盖茨基金会对学校重组前后的效果进行了细致的调查研究,结果发现,重组后的学校平均成绩没有变得更好,相反,在某些个例中变得更差了。


统计学家霍华德· 魏讷(Howard Wainer)在美国教育考试服务中心(Educational TestingServices)度过了最好的职业生涯。魏讷曾抱怨道:“这数百万美元的错误,本来是可以避免的。”在上面提到的对宾夕法尼亚州的学校进行的同一分析中,魏讷指出,虽然小型学校在前50 所学校中占了12% 的份额,但同时要看到,在后50 所学校中,有18% 是小型学校。简单来说,小型学校在这个分布的两端所占的比例都偏高。不管强调哪一部分数据,分析师们都会得出完全相反的结论。在对飞机晚点的研究中,我们见过类似的情况。问题的关键不在于多少数据被分析,而是被如何分析


盖茨基金会的故事证明了另外一点:数据分析是一件棘手的事,无论是权威专家还是经验丰富的行家,都不能担保不出错。不管一个人的脑袋瓜多么灵光,总会有一定的犯错范围。这是因为,没有人能够掌握所有信息。“那是在顶尖期刊上发表的”、“别瞎怀疑了,登在这本期刊上的文章难道会有错?!”这样的话经常拿来当做堵住别人嘴巴的借口。生活在大数据时代,只有傻瓜才会采取这种态度。你听说过很多研究,试图在某种疾病与某种基因之间建立联系,比如,帕金森症和高血压。可是,你知道吗?经过同行评审、并得到同行认可的遗传学关联性研究成果,只有30% 能被后续的研究证实,其余的都是假阳性结果(false-positive result)。那些声称是原创性的研究成果,还没来得及出版勘误表,就已经被推翻了。不过,话又说回来,我还是希望专家能发表一些质量稍高的分析报告。


大数据在因果关系这个问题上,实际上没什么好讲的。不过,存在一种普遍的误解,以为海量的数据流能够将隐藏着的“因果关系”冲出地面。请想一下点击流吧,网络营销人员借助点击追踪网络用户,来以此证明网络营销是成功的。顾客点击了一个网页横幅广告或者搜索广告,然后下了订单,这不就足以证明网络营销成功了吗?还需要什么更有力的证据吗?现实情况远非如此简单明了。比方说,我在网上点了一个三星盖世(Galaxy)的横幅广告,随后将这款手机放进了购物车。一个星期后,我观看了他们抨击苹果的广告,觉得很过瘾,于是,我回到三星的网店完成了这笔交易。分析人员在仔细分析网络日志时,不但会漏掉促使我行动的真实原因,而且会犯假阳性错误,将横幅广告跟此次购买行为捆绑在了一起。因为网络营销人员能看到的只有这些。这些小问题在网络分析员的生活中稀松平常。


大数据不仅意味着有更多好的分析,也意味着会有更多坏的分析。要知道,即便是专家和技术大牛也有掉链子的时候。如果一些不好的数据被心怀叵测的可疑人员添油加醋地利用,事情会变得更糟糕;不过,即便是动机纯洁的分析人员稍有不慎也会上当受骗。在这个充满数据的世界中,消费者得有一副火眼金睛才行啊!


大数据是真实的,而其影响更是广泛的。至少,我们每个人都是数据分析的消费者。因此,我们必须学会成为一个聪明的消费者。我们需要具备的是一种数字直觉。


数字直觉是我在招聘数据分析员时最为看重的一种品质。它能将真正的天才从“还不错”中区别开来。我希望在应聘者身上发现三样东西:一个是数字直觉,其他两样分别是技术能力跟商业思维。有些人可能在编程方面无人能敌,但却没有一点数字直觉;有些人可能是个讲故事的高手,能将一个个的情节串联起来,但是却没有任何数字直觉。数字直觉是第三维度。


我写作这本书的目的是引你上路。本书的每一章都是由近期读到的一则新闻触发灵感而写成的。在这些新闻故事中,有人提出了一些观点,并且援引数据来证明自己的观点。我通过提一些尖锐的问题,检查一致性,数理论证,有时候,也会通过获取并分析相关数据,来展示我是如何验证这些观点的。比如,我会质疑高朋(Groupon)的商业模型有意义吗?一种检测肥胖的新方法能解决我们最大的健康危机吗?克莱蒙德麦肯那学院(Claremont McKenna College)在学院排名游戏中小规模作弊了吗?政府公布的通胀跟失业数据值得信任吗?我们如何评价梦幻体育联盟的表现?当商家通过追踪我们的活动来实现个性化营销时,我们会从中受益吗?


即使是专家有时候也会掉进数据的陷阱中。如果我在这本书里面也犯了此类的错误,那么责任完全在我。要是我没有把观点讲得足够清楚,那就意味着这些数据的分析方法不止一种。我鼓励你们形成自己的观点。只有通过这样的练习实践,才能培养出你自己的数字直觉。


欢迎来到大数据时代,不过,要处处留神才是!

0

摘自:

《对“伪大数据”说不:走出大数据分析与解读的误区》

出版社:中国人民大学出版社·阅想时代


【作者】

[美]冯启思(Kaiser Fung) 译者:曲玉彬
冯启思(Kaiser Fung)是一位专业的统计学家,在市场营销和广告领域中,拥有超过15年的应用统计学方面的经验,曾任职于美国天狼星卫星广播公司、美国运通公司、[x+1]公司、Exodus通信公司、美国圣思网络公司等知名企业。他也是纽约大学的兼职教授,教授实用统计学,还是人气博客“垃圾图表”(Junk Charts Blog)的博主,率先对大众传媒领域的数据和图表进行了重要研究,并出版了一本广受赞誉的图书——《数据统治世界》。


【目录】

第一部分
关于社会大数据的解读 /1
第1 章 法学院院长互发垃圾邮件为哪般 /3
当一天招生办主任
伪造、精挑细选和换牌游戏
正在消失的行为、不限量、学校之间的联系以及部分得分
制造工作数据
问卷生存游戏、秘密协议、有提示的记忆
牵连共犯
法学院逃过经济衰退一劫
塞克斯顿主义
无济于事


第2 章 新的统计数据真的能让我们瘦下来吗 /47
减肥餐的致命弱点
身高体重指数
被误用的测量
需要解决的难题
真正的难题在哪里
维持新体重的最后一搏
第二部分
关于营销大数据的解读 /73


第3 章 脱销是如何毁掉一家企业的 /75
盈利与亏损的分界线
网络营销真的那么管用吗

第4 章 个性化销售真的能挽救高朋吗 /97
通过电子邮件检索
失败的乐趣
当米兰达遇见帕特里克
高朋的目标客户到底在哪里
高朋模式需要更多的新客户
高朋的定位
成长的阵痛


第5 章 营销人员为何给你发混合型的推销信息 /119
超特大号(XXL)提包是如何泄露你的秘密的
商家都了解你的什么
传递混合信息的科学性
大数据是救世主吗
第三部分
关于经济大数据的解读 /137


第6 章 要是没人能够申请,这还算新工作吗 /139
找借口
是否需要进行季度性调整
这条鱼变质了
华盛顿过去的那些漂亮的统计数据
克鲁德尔称之为“哎呦”

第7 章 你买鸡蛋花了多少钱 /167
有些你看见了,有些你没看见
对被平均化的不满
谁的核心
钻啊,孩子,钻啊
对平均数的惧怕
第四部分
关于体育大数据的解读 /189

第8 章 你是好教练还是好经理 /191
邀请统计学家进入你家厨房
生活在梦幻游戏之外
首先看一下教练
再看一下教练能力
杰伊为何要忽略自己的建议
被总经理所禁锢
命运
接下来在家里会发生什么
后记 在大数据时代生存下去 /221
[美其名曰] 大数据科学家生活中的三个小时
三天与6 000个词的较量



原文发布时间为:2015-01-13

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
英、法、德拿出81亿美元援助疫情下的创业公司
上周,英国政府宣布了一项12.5亿英镑(16亿美元)的一揽子计划,以为本国创业公司提供支持,帮助它们渡过疫情难关。
「镁客早报」未来中国数据量将超美国;巴菲特四季度股票资产缩水380亿美元,减持苹果甲骨文
NASA加速重返月球计划,希望在今年年底前重返月球;苹果收购英国数字营销初创公司DataTiger。
297 0