三个案例透析大数据思维的核心

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果。在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信。

逻辑推理能力是人类特有的本领,给出原因,我们能够通过逻辑推理得到结果。在过去,我们一直非常强调因果关系,一方面是因为我们常常是先有原因,再有结果,另一方面是因为如果我们找不出原因,常常会觉得结果不是非常可信。而大数据时代,大数据思维要求我们从探求因果联系到探索强相关关系。

以下三个案例分别来自药品研发、司法判决与广告投放,从三个不同的角度了解大数据思维的核心。

  大数据与药品研发:寻找特效药的方法

比如在过去,现代医学里新药的研制,就是典型的利用因果关系解决问题的例子。

青霉素的发明过程就非常具有代表性。首先,在19世纪中期,奥匈帝国的塞麦尔维斯(Ignaz Philipp Semmelweis,1818—1865)a、法国的巴斯德等人发现微生物细菌会导致很多疾病,因此人们很容易想到杀死细菌就能治好疾病,这就是因果关系。不过,后来弗莱明等人发现,把消毒剂涂抹在伤员伤口上并不管用,因此就要寻找能够从人体内杀菌的物质。

最终在1928年弗莱明发现了青霉素,但是他不知道青霉素杀菌的原理。而牛津大学的科学家钱恩和亚伯拉罕搞清楚了青霉素中的一种物质—青霉烷—能够破坏细菌的细胞壁,才算搞清楚青霉素有效性的原因,到这时青霉素治疗疾病的因果关系才算完全找到,这时已经是1943年,离赛麦尔维斯发现细菌致病已经过去近一个世纪。

两年之后,女科学家多萝西·霍奇金(Dorothy Hodgkin)搞清楚了青霉烷的分子结构,并因此获得了诺贝尔奖,这样到了1957年终于可以人工合成青霉素。当然,搞清楚青霉烷的分子结构,有利于人类通过改进它来发明新的抗生素,亚伯拉罕就因此而发明了头孢类抗生素。

在整个青霉素和其他抗生素的发明过程中,人类就是不断地分析原因,然后寻找答案(结果)。当然,通过这种因果关系找到的答案非常让人信服。

其他新药的研制过程和青霉素很类似,科学家们通常需要分析疾病产生的原因,寻找能够消除这些原因的物质,然后合成新药。这是一个非常漫长的过程,而且费用非常高。在七八年前,研制一种处方药已经需要花费10年以上的时间,投入10亿美元的科研经费。

如今,时间和费用成本都进一步提高;一些专家,比如斯坦福医学院院长米纳(Lloyd Minor)教授则估计需要20年的时间,20亿美元的投入。这也就不奇怪为什么有效的新药价格都非常昂贵,因为如果不能在专利有效期内a赚回20亿美元的成本,就不可能有公司愿意投钱研制新药了。

按照因果关系,研制一种新药就需要如此长的时间、如此高的成本。这显然不是患者可以等待和负担的,也不是医生、科学家、制药公司想要的,但是过去没有办法,大家只能这么做。

如今,有了大数据,寻找特效药的方法就和过去有所不同了。美国一共只有5 000多种处方药,人类会得的疾病大约有一万种。如果将每一种药和每一种疾病进行配对,就会发现一些意外的惊喜。比如斯坦福大学医学院发现,原来用于治疗心脏病的某种药物对治疗某种胃病特别有效。

当然,为了证实这一点需要做相应的临床试验,但是这样找到治疗胃病的药只需要花费3年时间,成本也只有1亿美元。这种方法,实际上依靠的并非因果关系,而是一种强关联关系,即A药对B病有效。至于为什么有效,接下来3年的研究工作实际上就是在反过来寻找原因。这种先有结果再反推原因的做法,和过去通过因果关系推导出结果的做法截然相反。无疑,这样的做法会比较快,当然,前提是有足够多的数据支持。

大数据思维与司法:为香烟定罪

在过去,由于数据量有限,而且常常不是多维度的,这样的相关性很难找得到,即使偶尔找到了,人们也未必接受,因为这和传统的观念不一样。20世纪90年代中期,在美国和加拿大围绕香烟是否对人体有害这件事情的一系列诉讼上,如何判定吸烟是否有害是这些案子的关键,是采用因果关系判定,还是采用相关性判定,决定了那些诉讼案判决结果。

在今天一般的人看来,吸烟对人体有害,这是板上钉钉的事实。比如美国外科协会的一份研究报告显示,吸烟男性肺癌的发病率是不吸烟男性的23倍,女性则是相应的13倍a,这从统计学上讲早已经不是随机事件的偶然性了,而是存在必然的联系。但是,就是这样看似如山的铁证,依然“不足够”以此判定烟草公司就是有罪,因为它们认为吸烟和肺癌没有因果关系。

烟草公司可以找出很多理由来辩解,比如说一些人之所以要吸烟,是因为身体里有某部分基因缺陷或者身体缺乏某种物质;而导致肺癌的,是这种基因缺陷或者某种物质的缺乏,而非烟草中的某些物质。从法律上讲,烟草公司的解释很站得住脚,美国的法律又是采用无罪推定原则a,因此,单纯靠发病率高这一件事是无法判定烟草公司有罪的。

这就导致了在历史上很长的时间里,美国各个州政府的检察官在对烟草公司提起诉讼后,经过很长时间的法庭调查和双方的交锋,最后结果都是不了了之。其根本原因是提起诉讼的原告一方(州检察官和受害人)拿不出足够充分的证据,而烟草公司又有足够的钱请到很好的律师为它们进行辩护。

这种情况直到20世纪90年代中期美国历史上的那次世纪大诉讼才得到改变。1994年,密西西比州的总检察长麦克·摩尔(Michael Moore)又一次提起了对菲利普·莫里斯等烟草公司的集体诉讼,随后,美国40多个州加入了这场有史以来最大的诉讼行动。在诉讼开始以前,双方都清楚官司的胜负其实取决于各州的检察官们能否收集到让人信服的证据来证明是吸烟而不是其他原因导致了很多疾病(比如肺癌)更高的发病率。

我们在前面讲了,单纯讲吸烟者比不吸烟者肺癌的发病率高是没有用的,因为得肺癌可能是由其他更直接的因素引起的。要说明吸烟的危害,最好能找到吸烟和得病的因果关系,但是这件事情短时间内又做不到。因此,诉讼方只能退而求其次,他们必须能够提供在(烟草公司所说的)其他因素都被排除的情况下,吸烟者发病的比例依然比不吸烟者要高很多的证据,这件事做起来远比想象的困难。

虽然当时全世界的人口多达60亿,吸烟者的人数也很多,得各种与吸烟有关疾病的人也不少,但是在以移民为主的美国,尤其是大城市里,人们彼此之间基因的差异相对较大,生活习惯和收入状况也千差万别,即使调查了大量吸烟和不吸烟的样本,能够进行比对的、各方面条件都很相似的样本并不多。不过在20世纪90年代的那次世纪大诉讼中,各州的检察长下定决心要打赢官司,而不再是不了了之,为此他们聘请了包括约翰·霍普金斯大学在内的很多大学的顶级专家作为诉讼方的顾问,其中既包括医学家,也包括公共卫生专家。

这些专家们为了收集证据,派下面的工作人员到世界各地,尤其是第三世界国家的农村地区(包括中国的西南地区),去收集对比数据。在这样的地区,由于族群相对单一(可以排除基因等先天的因素),收入和生活习惯相差较小(可以排除后天的因素),有可能找到足够多的可对比的样本,来说明吸烟的危害。

各州检察官们和专家们经过三年多的努力,最终让烟草公司低头了。1997年,烟草公司和各州达成和解,同意赔偿3 655亿美元。在这场历史性胜利的背后,靠的并非是检察官们找到了吸烟对人体有害的因果关系的证据,而依然是采用了统计上强相关性的证据,只是这一次的证据能够让陪审团和法官信服。在这场马拉松式的诉讼过程中,其实人们的思维方式已经从接受因果关系,转到接受强相关性上来了。

如果在法律上都能够被作为证据接受,那么把相关性的结果应用到其他领域更是顺理成章的事情。

大数据思维与广告:咖啡与信用卡广告更配哦

2003年Google推出了根据网页内容安插广告的AdSense服务,以与那些在网页中随机投放广告的产品竞争。根据我们的直觉,如果在一个和照相机有关的网站(或者)网页中放上照相机的广告,效果应该最好。这其实就是用到了相关性的特点,但是大部分时候,相关性并不是那么直接,不能一眼就看出来。根据大量数据的统计结果,我们发现这样一些广告和内容的搭配效果非常好,很多和我们的想象不大相同,比如:

在电影租赁和收看视频的网站上,放上零食的广告;

在女装网站上,放男装的广告;

在咖啡评论和销售网站上,放信用卡和房贷的广告;

在工具(Hardware)评论网站上,放上快餐的广告;

……

这些搭配,如果没有大量的数据统计作为基础,一般人是想不到的。当然,如果仔细分析有些看似不太相关的搭配,还是能够找到合理的解释,比如电影租赁和视频播放网站与零食广告的搭配,符合人在看视频时喜欢吃零食的习惯。

但是,有些搭配会让人完全摸不到头脑,比如把咖啡和信用卡或者房贷联系起来。不管是能够找到原因的,还是想不出原因的(可能背后存在着我们一时想不到的原因),只要使用了这些相关性,广告的效果就好。当然,在利用相关性时,我们希望是那种可信度比较高的,即数学上所谓的强相关性,而不是随便把一些看似相关的东西扯到一起。

我们在前面提到,能通过因果关系找到答案,根据因果关系知道原因固然好,但是对于复杂的问题,其难度非常大,除了靠物质条件、人们的努力,还要靠运气。

牛顿和爱因斯坦都是运气很好的人。遗憾的是,大部分时候我们并没有灵感和运气,因此很多问题得不到解决。在大数据时代,我们能够得益于一种新的思维方法—从大量的数据中直接找到答案,即使不知道原因。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
36 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
2月前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
38 1
|
2月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
48 3
|
2月前
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
47 1
|
2月前
|
消息中间件 druid 大数据
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
40 2
|
2月前
|
消息中间件 分布式计算 druid
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
60 1
|
2月前
|
存储 SQL 分布式计算
大数据-142 - ClickHouse 集群 副本和分片 Distributed 附带案例演示
大数据-142 - ClickHouse 集群 副本和分片 Distributed 附带案例演示
240 0
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
289 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
44 2
下一篇
DataWorks