盖茨基金:成也数据,败也数据

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

比尔·盖茨是美国企业成功故事的典型代表。这个绝顶聪明的孩子,大学中途退学,创办自己的软件公司。而且他们公司开发的软件,最终用在了世界90% 的电脑上,比尔也因此赚到了数十亿美元的财富。后来,他退出江湖,将大部分财富捐献给慈善事业。比尔以自己和妻子的名义成立了“比尔&梅琳达·盖茨基金会”(Bill& Melinda Gates Foundation)。而且我们很高兴地看到该基金会在许多领域进行了大胆投资。它涉足的领域包括在发展中国家进行疟疾预防,在美国进行中学改革,以及对艾滋病(HIV/AIDS)的研究。盖茨基金会因依靠数据来做出明智的决定,从而赢得了良好的声誉。


但这并不意味着他们不会犯错。盖茨在千禧年开始之际,大力支持小型学校运动,他在全美范围内选出了一些学校,并往这些学校投入了上亿美元。证据A 是当时的一项统计发现:在全美表现最好的学校中,小型学校所占的比例不均衡。例如,在宾夕法尼亚州,按照五年级的阅读成绩评出的前50 所学校中,12% 是小型学校。要是学生的成绩跟学校的规模无关,那么规模大的学校在这50 所名校中所占的比例应该是小型学校的四倍。因此,学校规模被认为是影响教学质量的重要因素——每个年级最多不能超过100 名学生。而盖茨基金会设计的一套改造方案,就是将大型学校拆分成更小、更高效的小型学校。(文摘编者注:文中学校应该有大、中、小三类,否则不能根据“大型学校数量是小型学校数量4倍”和“12%是小型学校”的事实,得出小型学校教学质量好的结论,你觉得呢?)


举例来说,2003 年新学年伊始,在华盛顿的芒特莱克泰勒斯高中(MountlakeTerrace High School)读书的1800 名学生发现,自己的学校被分成了五所小型学校,学校的名字分别叫做“发现学校”、“改革学校”、“复兴学校”等。不过,校址没有改变,还是在以前的大楼里。盖茨基金会教育处执行主任汤姆·范德· 阿尔克(Tom Vander Ark)解释说:“大多数穷人家的孩子,不得不进规模大的学校念书,在那里没人认识他们,他们被甩进了一条难以出头的死路……小型学校只不过营造了一个(比大型学校)更好的成长环境。在那里,比较容易形成积极的氛围,产生较高的期望值,也更容易优化课程设置,改进教学质量。”


十年以后,盖茨基金会却发生了彻底的转变,它不再将学校的规模视为解决学生成绩问题的唯一方法,而开始致力于设计富有新意的课程以及提升教学质量。盖茨基金会对学校重组前后的效果进行了细致的调查研究,结果发现,重组后的学校平均成绩没有变得更好,相反,在某些个例中变得更差了。


统计学家霍华德· 魏讷(Howard Wainer)在美国教育考试服务中心(Educational TestingServices)度过了最好的职业生涯。魏讷曾抱怨道:“这数百万美元的错误,本来是可以避免的。”在上面提到的对宾夕法尼亚州的学校进行的同一分析中,魏讷指出,虽然小型学校在前50 所学校中占了12% 的份额,但同时要看到,在后50 所学校中,有18% 是小型学校。简单来说,小型学校在这个分布的两端所占的比例都偏高。不管强调哪一部分数据,分析师们都会得出完全相反的结论。在对飞机晚点的研究中,我们见过类似的情况。问题的关键不在于多少数据被分析,而是被如何分析


盖茨基金会的故事证明了另外一点:数据分析是一件棘手的事,无论是权威专家还是经验丰富的行家,都不能担保不出错。不管一个人的脑袋瓜多么灵光,总会有一定的犯错范围。这是因为,没有人能够掌握所有信息。“那是在顶尖期刊上发表的”、“别瞎怀疑了,登在这本期刊上的文章难道会有错?!”这样的话经常拿来当做堵住别人嘴巴的借口。生活在大数据时代,只有傻瓜才会采取这种态度。你听说过很多研究,试图在某种疾病与某种基因之间建立联系,比如,帕金森症和高血压。可是,你知道吗?经过同行评审、并得到同行认可的遗传学关联性研究成果,只有30% 能被后续的研究证实,其余的都是假阳性结果(false-positive result)。那些声称是原创性的研究成果,还没来得及出版勘误表,就已经被推翻了。不过,话又说回来,我还是希望专家能发表一些质量稍高的分析报告。


大数据在因果关系这个问题上,实际上没什么好讲的。不过,存在一种普遍的误解,以为海量的数据流能够将隐藏着的“因果关系”冲出地面。请想一下点击流吧,网络营销人员借助点击追踪网络用户,来以此证明网络营销是成功的。顾客点击了一个网页横幅广告或者搜索广告,然后下了订单,这不就足以证明网络营销成功了吗?还需要什么更有力的证据吗?现实情况远非如此简单明了。比方说,我在网上点了一个三星盖世(Galaxy)的横幅广告,随后将这款手机放进了购物车。一个星期后,我观看了他们抨击苹果的广告,觉得很过瘾,于是,我回到三星的网店完成了这笔交易。分析人员在仔细分析网络日志时,不但会漏掉促使我行动的真实原因,而且会犯假阳性错误,将横幅广告跟此次购买行为捆绑在了一起。因为网络营销人员能看到的只有这些。这些小问题在网络分析员的生活中稀松平常。


大数据不仅意味着有更多好的分析,也意味着会有更多坏的分析。要知道,即便是专家和技术大牛也有掉链子的时候。如果一些不好的数据被心怀叵测的可疑人员添油加醋地利用,事情会变得更糟糕;不过,即便是动机纯洁的分析人员稍有不慎也会上当受骗。在这个充满数据的世界中,消费者得有一副火眼金睛才行啊!


大数据是真实的,而其影响更是广泛的。至少,我们每个人都是数据分析的消费者。因此,我们必须学会成为一个聪明的消费者。我们需要具备的是一种数字直觉。


数字直觉是我在招聘数据分析员时最为看重的一种品质。它能将真正的天才从“还不错”中区别开来。我希望在应聘者身上发现三样东西:一个是数字直觉,其他两样分别是技术能力跟商业思维。有些人可能在编程方面无人能敌,但却没有一点数字直觉;有些人可能是个讲故事的高手,能将一个个的情节串联起来,但是却没有任何数字直觉。数字直觉是第三维度。


我写作这本书的目的是引你上路。本书的每一章都是由近期读到的一则新闻触发灵感而写成的。在这些新闻故事中,有人提出了一些观点,并且援引数据来证明自己的观点。我通过提一些尖锐的问题,检查一致性,数理论证,有时候,也会通过获取并分析相关数据,来展示我是如何验证这些观点的。比如,我会质疑高朋(Groupon)的商业模型有意义吗?一种检测肥胖的新方法能解决我们最大的健康危机吗?克莱蒙德麦肯那学院(Claremont McKenna College)在学院排名游戏中小规模作弊了吗?政府公布的通胀跟失业数据值得信任吗?我们如何评价梦幻体育联盟的表现?当商家通过追踪我们的活动来实现个性化营销时,我们会从中受益吗?


即使是专家有时候也会掉进数据的陷阱中。如果我在这本书里面也犯了此类的错误,那么责任完全在我。要是我没有把观点讲得足够清楚,那就意味着这些数据的分析方法不止一种。我鼓励你们形成自己的观点。只有通过这样的练习实践,才能培养出你自己的数字直觉。


欢迎来到大数据时代,不过,要处处留神才是!

摘自:

《对“伪大数据”说不:走出大数据分析与解读的误区》

出版社:中国人民大学出版社·阅想时代


【作者】

[美]冯启思(Kaiser Fung) 译者:曲玉彬
冯启思(Kaiser Fung)是一位专业的统计学家,在市场营销和广告领域中,拥有超过15年的应用统计学方面的经验,曾任职于美国天狼星卫星广播公司、美国运通公司、[x+1]公司、Exodus通信公司、美国圣思网络公司等知名企业。他也是纽约大学的兼职教授,教授实用统计学,还是人气博客“垃圾图表”(Junk Charts Blog)的博主,率先对大众传媒领域的数据和图表进行了重要研究,并出版了一本广受赞誉的图书——《数据统治世界》。


【目录】

第一部分
关于社会大数据的解读 /1
第1 章 法学院院长互发垃圾邮件为哪般 /3
当一天招生办主任
伪造、精挑细选和换牌游戏
正在消失的行为、不限量、学校之间的联系以及部分得分
制造工作数据
问卷生存游戏、秘密协议、有提示的记忆
牵连共犯
法学院逃过经济衰退一劫
塞克斯顿主义
无济于事


第2 章 新的统计数据真的能让我们瘦下来吗 /47
减肥餐的致命弱点
身高体重指数
被误用的测量
需要解决的难题
真正的难题在哪里
维持新体重的最后一搏
第二部分
关于营销大数据的解读 /73


第3 章 脱销是如何毁掉一家企业的 /75
盈利与亏损的分界线
网络营销真的那么管用吗

第4 章 个性化销售真的能挽救高朋吗 /97
通过电子邮件检索
失败的乐趣
当米兰达遇见帕特里克
高朋的目标客户到底在哪里
高朋模式需要更多的新客户
高朋的定位
成长的阵痛


第5 章 营销人员为何给你发混合型的推销信息 /119
超特大号(XXL)提包是如何泄露你的秘密的
商家都了解你的什么
传递混合信息的科学性
大数据是救世主吗
第三部分
关于经济大数据的解读 /137


第6 章 要是没人能够申请,这还算新工作吗 /139
找借口
是否需要进行季度性调整
这条鱼变质了
华盛顿过去的那些漂亮的统计数据
克鲁德尔称之为“哎呦”

第7 章 你买鸡蛋花了多少钱 /167
有些你看见了,有些你没看见
对被平均化的不满
谁的核心
钻啊,孩子,钻啊
对平均数的惧怕
第四部分
关于体育大数据的解读 /189

第8 章 你是好教练还是好经理 /191
邀请统计学家进入你家厨房
生活在梦幻游戏之外
首先看一下教练
再看一下教练能力
杰伊为何要忽略自己的建议
被总经理所禁锢
命运
接下来在家里会发生什么
后记 在大数据时代生存下去 /221
[美其名曰] 大数据科学家生活中的三个小时
三天与6 000个词的较量



原文发布时间为:2015-01-13

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
前端开发 JavaScript
HTML+CSS+JAVASCRIPT实现——情人节表白情书
本文主要介绍如何使用HTML三件套来实现制作一封情人节表白情书,富含情谊与爱,打动女生的心灵
1156 2
HTML+CSS+JAVASCRIPT实现——情人节表白情书
|
11月前
|
机器学习/深度学习 数据采集 人工智能
深入探索人工智能与大数据的融合之路
本文旨在探讨人工智能(AI)与大数据技术如何相互促进,共同推动现代科技的进步。通过分析两者结合的必要性、挑战以及未来趋势,为读者提供一个全面的视角,理解这一领域内的最新发展动态及其对行业的影响。文章不仅回顾了历史背景,还展望了未来可能带来的变革,并提出了几点建议以促进更高效的技术整合。
|
9月前
|
机器学习/深度学习 存储 算法
DeepSeek元学习(Meta-Learning)基础与实践
元学习(Meta-Learning),又称“学会学习”,旨在通过少量数据或训练步骤使模型快速适应新任务。本文介绍如何使用DeepSeek构建和训练元学习模型,重点讲解基于优化的元学习方法MAML。我们从定义任务生成器、实现MAML算法到训练模型和快速适应新任务,提供了详细的代码示例和常见问题解决方案。通过本文,读者可以掌握元学习的基础与实践技巧,利用DeepSeek高效构建元学习模型。
|
9月前
|
人工智能 自然语言处理 关系型数据库
DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
355 3
|
11月前
|
人工智能 监控 自动驾驶
Apollo:Meta 联合斯坦福大学推出专注于视频理解的多模态模型,能够理解长达数小时的视频
Apollo是由Meta和斯坦福大学合作推出的大型多模态模型,专注于视频理解。该模型通过“Scaling Consistency”现象,在较小模型上的设计决策能够有效扩展至大型模型,显著提升了视频理解能力。
291 24
Apollo:Meta 联合斯坦福大学推出专注于视频理解的多模态模型,能够理解长达数小时的视频
|
12月前
|
存储 监控 安全
防止证书被伪造
防止证书被伪造
191 10
|
11月前
|
JSON API 开发者
京东店铺所有商品数据接口(JD.item_search_shop)丨京东API接口指南
JD.item_search_shop 是京东开放平台提供的接口,用于获取店铺所有商品数据。请求方法为 GET,主要参数包括 shopId(必填)、page、pageSize 和 sortType。开发者需先注册并获取 API 密钥,确定目标店铺 ID 后构建请求。响应为 JSON 格式,适用于电商应用、价格比较和市场分析等场景。
|
弹性计算 开发框架 数据可视化
阿里云虚拟主机和云服务器有什么区别?多角度全解析对比
阿里云虚拟主机与云服务器ECS的主要区别在于权限与灵活性。虚拟主机简化了网站搭建流程,预装常用环境,适合初级用户快速建站;而云服务器提供全面控制权,支持多样化的应用场景,如APP后端、大数据处理等,更适合具备技术能力的用户。尽管虚拟主机在价格上通常更优惠,但随着云服务器价格的下降,其性价比已超越虚拟主机,成为更具吸引力的选择。
|
SQL Java 数据库连接
【MyBatisPlus·最新教程】包含多个改造案例,常用注解、条件构造器、代码生成、静态工具、类型处理器、分页插件、自动填充字段
MyBatis-Plus是一个MyBatis的增强工具,在 MyBatis 的基础上只做增强不做改变,为简化开发、提高效率而生。本文讲解了最新版MP的使用教程,包含多个改造案例,常用注解、条件构造器、代码生成、静态工具、类型处理器、分页插件、自动填充字段等核心功能。
1823 5
【MyBatisPlus·最新教程】包含多个改造案例,常用注解、条件构造器、代码生成、静态工具、类型处理器、分页插件、自动填充字段
|
存储 人工智能 自然语言处理
无缝融入,即刻智能[二]:Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南,42K+星标见证专属智能方案
【8月更文挑战第8天】无缝融入,即刻智能[二]:Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南,42K+星标见证专属智能方案
无缝融入,即刻智能[二]:Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南,42K+星标见证专属智能方案