数据并非越大越好:谷歌流感趋势错在哪儿了?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据为研究人类行为和人与人之间大规模的互动提供了新的方式。然而,由于大数据的搜集做不到像“小数据”那样精确,因此分析解读大数据是一件十分复杂的事。

大数据为研究人类行为和人与人之间大规模的互动提供了新的方式。然而,由于大数据的搜集做不到像“小数据”那样精确,因此分析解读大数据是一件十分复杂的事。一项发表在《科学》杂志政策论坛上的新研究利用“谷歌流感趋势”(Google Flu Trends,GFT)作为范例,解释了大数据分析为何会背离事实,并提出了大数据时代背景下一些值得思考的事。

谷歌发现某些搜索关键词可以很好地标示流感疫情的现状。GFT的工作原理就是使用经过汇总的谷歌搜索数据来估测流感疫情,其预测结果将与美国疾病预防控制中心(Centers for Disease Control and Prevention,CDC)的监测报告相比对。但是2013年2月,《自然》杂志发文指出,GFT预测的流感样病例门诊数超过了CDC根据全美各实验室监测报告得出的预测结果的两倍(但GFT的构建本来就是用来预测CDC的报告结果的)。

研究第一作者大卫·拉泽(David Lazer)认为造成这种结果的两个重要原因分别是“大数据傲慢”(Big Data Hubris)和算法变化。

“大数据傲慢”指的是这样一种观点:即认为大数据可以完全取代传统的数据收集方法,而非作为后者的补充。这种观点的最大问题在于,绝大多数大数据与经过严谨科学试验得到的数据之间存在很大的不同。

编写一个将5000万搜索关键词与1152个数据点相匹配的算法是非常困难的,很有可能会出现过度拟合(将噪声误认为信号)的情况:很多关键词只是看似与流感相关,但实际上却并无关联。事实上,在2013年的报道之前,GFT就多次在很长一段时间内过高地估计了流感的流行情况。 2010年的一项研究发现,使用CDC的滞后预测报告(通常滞后两周)来预测当前的流感疫情,其准确性甚至都高于GFT的预测结果。

谷歌搜索引擎的算法并非一成不变的,谷歌对算法会进行不断地调整和改进。而搜索引擎算法的改变和用户的搜索行为会影响GFT的预测结果,比如媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,进而影响GFT的预测。

另外,相关搜索(People also search for)的算法也会对GFT造成影响。例如搜索“发烧”,相关搜索中会给出关键词“流感”,而搜索“咳嗽”则会给出“普通感冒”。

除此以外,搜索建议(recommended search)也会进一步增加某些热门词汇的搜索频率。

因为GFT会在它的模型中使用相对流行的关键词,所以搜索引擎算法对GFT的预测结果会产生不利影响。奇怪的是,GFT在构建时是基于这样一种假设:特定关键词的相对搜索量和特定事件之间存在相关性,问题是用户的搜索行为并不仅仅受外部事件影响,它还受服务提供商影响。

GFT在2012~2013的流感流行季节里过高的估计了流感疫情;在2011年~2012年则有超过一半的时间过高的估计了流感疫情。从2011年8月21日到2013年9月1日,GFT在为期108周的时间里有100周的预测结果都偏高。上图:对流感样病例门诊数的预测结果;下图:偏差%=(非CDC预测值-CDC预测结值)/CDC预测值,GFT的平均绝对偏差为0.486,CDC滞后模型的平均绝对偏差为0.311,GFT与CDC相结合的平均绝对偏差为0.232。以上统计结果P< 0.05。图片来源:The Parable of Google Flu:Traps in Big Data

拉泽和他的研究团队认为,如果谷歌可以公开衍生数据和汇总数据,那么研究者就可以更好地了解GFT背后的算法。此外,谷歌还需要解决可重复性的问题:利用谷歌的Correlate服务得到的与流感高度相关的关键词与GFT选取的关键词无法匹配。

另外,GFT的优势在于能够提供细化程度非常高的数据(数据粒度小)。因此与CDC相比,GFT的价值在于提供地区水平上的流感疫情预测。而且,GFT非常适合建立流感传播的生成式模型(Generative Model),并且对于预测几个月后的流感疫情具有较高的准确性。

数以百万的工程师和用户在不断改变着搜索引擎算法,而作为研究者则需要更好地理解这些变化,因为正是搜索引擎算法决定了我们最终得到的信息。

在论文的最后作者指出,数据的价值并不仅仅体现在“大小”上。真正核心的改变在于利用创新的数据分析方法去分析数据,这样才能帮助我们更好的理解这个世界。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
打赏
0
0
0
0
13
分享
相关文章
女性健康守护者:随机森林与校准曲线助力乳腺癌早期诊断!
女性健康守护者:随机森林与校准曲线助力乳腺癌早期诊断!
238 0
|
3月前
|
五种被低估的非常规统计检验方法:数学原理剖析与多领域应用价值研究
本文将详细介绍五种具有重要应用价值的统计检验方法,并探讨它们在免疫学(TCR/BCR库分析)、金融数据分析和运动科学等领域的具体应用。
103 11
R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析
R语言主成分、因子分析、聚类对我国城镇私营单位就业人员平均工资数据研究与分析
转:排列组合公式算法在局域网监控软件中的技术趋势与未来发展
排列组合公式是组合数学中的一种计算方法,用于确定给定集合中元素的不同排列和组合的数量。在局域网监控软件中,排列组合公式可以应用于一些特定的场景,如网络中的用户组合、权限管理、资源分配等方面。
123 0
差异基因通路富集分析的统计学假设-个人见解分享
本文主要分享了学习 “差异基因通路富集中使用的 超几何检验方法背后意义” 的个人见解
402 0
人间真实——用interpret可解释分析一下影响年薪收入的因素
近年来,可解释AI(eXplainable AI,XAI)是人工智能的一个热门方向,相关研究内容呈现快速增长趋势。在众多可解释AI相关开源工具中,微软的interpret是一个功能比较全面、展示效果较好的代表,个人在学习了interpret文档后,发现其一个demo中用到的数据集为Adult数据集——一个用于预测个人年收入是否大于50K(单位:$)的人口普查数据集。所以,刚好用interpret来分析一下,影响年薪收入的因素都有哪些,以及影响程度如何
316 0
人间真实——用interpret可解释分析一下影响年薪收入的因素
指数增长、拐点,斯坦福学霸自制动画,用最简单的方式解释疫情常见词
指数增长、拐点,斯坦福学霸自制动画,用最简单的方式解释疫情常见词
196 0
科学家首次在单分子磁体中观察到磁介电效应
单分子磁体的介电性质首次在一种含稀土离子Dy的单分子磁体中,观察到显著的磁介电效应。
1465 0