大数据的应用统计之殇

简介:

0

今年,统计对大数据是非常重要的这一观念充斥着大众媒体。这里有几个例子,首先是Lazer等人在科学杂志上发表的文章,使得这一观念迅速蔓延。

· 谷歌流感的教训:大数据分析的陷阱

· 大数据,我们犯了一个大错误?

· 谷歌流感趋势:大数据的限制

· 八个(不,九个!)大数据的问题

所有这些文章涉及的问题都是统计人员思考了很长时间的问题:抽样总体,干扰因素,多重检验,偏置和过拟合。在大数据的热潮中,这些想法都被忽略或没有给予足够的重视。

原因之一是,当你真正花时间做一个正确的分析,仔细注意数据变化的所有来源,你将发现这几乎是一个定律:如果你只是把你的数据塞到机器学习的算法中,并报告任何出来的结果,你将会得到比你原本应该得到的更少的结果

新闻报道中最好的例子是谷歌流感趋势。谷歌流感趋势最初是作为一种机器学习算法,用来预测基于谷歌搜索关键词的流感病例的数量。尽管基础的数据管理和机器学习算法是正确的,但由于对数据收集和建模过程中的不确定性的理解不足渐渐导致极不准确的预测。如果是一位统计学家,他会仔细考虑采样过程,确定影响空间发展趋势的时间序列因素,研究为什么搜索词具有预测性,并试图了解谷歌流感趋势可行的可能原因是什么。

正如我们所看到的,统计专业知识的缺乏导致了基因组学和经济学研究上的一些经典错误案例。第一种情况,由AnilPotti领导的一队科学家设计了一个预测化疗反应的算法,该方案在科学界和大众媒体上均受到广泛好评。不幸的是,研究人员没有正确地考虑数据集变化的所有来源,用了错误的统计方法,忽略了主要的数据完整性问题。这篇文章的主要作者和编辑都缺乏必要的统计专业知识,从而导致严重的后果,并取消了临床试验。

同样,两位经济学家Reinhart Rogoff发表了一篇文章,声称GDP增长因为政府债务高而变慢。后来人们发现,在他们用于分析的Excel表格中有错误。但更重要的是,他们在回归模型中使用的权重被质疑为是不切实际的,并导致与作者公开拥护的观点截然不同的结论。失败的主要原因是对数据分析的假设缺少了灵敏度分析,而这是任何训练有素的应用统计学家都会做的事。

迄今为止,在主要的公共大数据领域中,统计思维也表现的非常缺乏。下面是一些例子:

· 白宫大数据合作伙伴研讨会- 0/19是统计学家

· 国家科学院大数据研讨会-2/13发言者是统计学家

· 摩尔基金会数据科学平台- 0/3董事有统计背景,1/25OSTP(科技政策局)关于这个平台的发言者是统计学家

· 提议成立NIHBD2K的组织- 0/18参与者是统计学家

· 白宫大数据部署- 0/4思想领袖是统计学家,0/n参与者是统计学家。

(译者注:NIH BD2K是美国国立卫生研究院在2013年启动的大数据创新计划)

还有一个例子是来自加州大学校友杂志的一个荒唐的表格,这是我在Terry Speed的令人惊异的演讲中找到的。(马上通过链接去看一下他的讲话,就能直接看到问题所在)它显示了对曾经在一系列科学学科中发展了重要的专业知识的应用统计学者的最基本的不尊重。

0

(译者注:上图来自加州大学伯克利分校(UC Berkeley)的校友杂志,显示的是该校几乎所有的学科在数据科学领域的贡献,唯有统计学是一片空白)

所有这一些导出了两个问题:

1. 鉴于统计思考的重要性,为什么统计学家在这些重大举措中没有发挥主动性?

2. 当思考大数据时代时,哪些统计理念是我们已经弄明白的?

作者:Jeff Leek


原文发布时间为:2014-12-12

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
SQL 分布式计算 数据可视化
Tableau与大数据:可视化工具在大数据分析中的应用
【4月更文挑战第8天】Tableau是一款领先的数据可视化工具,擅长于大数据分析,提供广泛的数据连接器,支持多源整合。它与Hadoop、Spark等深度集成,实现高效大数据处理。Tableau的拖拽式界面和交互式分析功能使得非技术人员也能轻松探索数据。在实战中,Tableau用于业务监控、数据storytelling和自助式分析,推动数据民主化,提升决策效率。未来,Tableau将持续创新,扩展生态系统,并保障数据安全与合规性,助力企业最大化数据价值。
41 0
|
1月前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
1月前
|
存储 监控 NoSQL
Redis HyperLogLog: 高效统计大数据集的神秘利器
Redis HyperLogLog: 高效统计大数据集的神秘利器
|
2月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
搜索推荐 大数据 数据安全/隐私保护
大数据的应用领域
【4月更文挑战第10天】大数据已深入金融(风险评估、欺诈检测)、医疗(精准医疗、疾病预测)、公共服务(交通管理、灾害预测)、电子商务(客户分析、个性化推荐)、制造业(生产控制、优化)及农业(资源配置、生产效率)等多个领域。随着技术进步,应用范围将持续扩展,但需关注隐私保护和数据安全。
16 3
|
2月前
|
数据采集 分布式计算 大数据
Java语言在大数据处理中的应用
传统的大数据处理往往依赖于庞大的数据中心和高性能的服务器,然而随着大数据时代的到来,Java作为一种强大的编程语言正在被广泛应用于大数据处理领域。本文将探讨Java语言在大数据处理中的优势和应用,以及其在分布式计算、数据处理和系统集成等方面的重要作用。
|
3天前
|
存储 NoSQL 大数据
【MongoDB 专栏】MongoDB 在大数据场景下的应用
【5月更文挑战第11天】MongoDB,适用于大数据时代,以其灵活数据模型、高可扩展性和快速性能在大数据场景中脱颖而出。它处理海量、多类型数据,支持高并发,并在数据分析、日志处理、内容管理和物联网应用中广泛应用。电商和互联网公司的案例展示了其在扩展性和业务适应性上的优势,但同时也面临数据一致性、资源管理、数据安全和性能优化的挑战。
【MongoDB 专栏】MongoDB 在大数据场景下的应用
|
7天前
|
分布式计算 监控 数据挖掘
MaxCompute的应用
【5月更文挑战第7天】MaxCompute的应用
26 8
|
1月前
|
SQL Cloud Native 架构师
深入浅出Presto:大数据查询引擎的原理与应用
【4月更文挑战第7天】Presto是高性能的分布式SQL查询引擎,专为大规模数据交互式分析设计。它采用分离式架构,内存计算和动态规划优化查询,支持跨源查询、交互式查询和ANSI SQL兼容性。应用于大数据分析、实时数据湖查询和云原生部署。Presto的灵活性和效率使其在大数据处理领域备受推崇,适合分析师、数据科学家和IT架构师使用。未来将在博客中分享更多实践和案例。
29 1
|
1月前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。

热门文章

最新文章