数据并非越大越好：谷歌流感趋势错在哪儿了？-阿里云开发者社区

数据并非越大越好：谷歌流感趋势错在哪儿了？

2015-03-05 1480

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 大数据为研究人类行为和人与人之间大规模的互动提供了新的方式。然而，由于大数据的搜集做不到像“小数据”那样精确，因此分析解读大数据是一件十分复杂的事。

大数据为研究人类行为和人与人之间大规模的互动提供了新的方式。然而，由于大数据的搜集做不到像“小数据”那样精确，因此分析解读大数据是一件十分复杂的事。一项发表在《科学》杂志政策论坛上的新研究利用“谷歌流感趋势”（Google Flu Trends，GFT）作为范例，解释了大数据分析为何会背离事实，并提出了大数据时代背景下一些值得思考的事。

谷歌发现某些搜索关键词可以很好地标示流感疫情的现状。GFT的工作原理就是使用经过汇总的谷歌搜索数据来估测流感疫情，其预测结果将与美国疾病预防控制中心（Centers for Disease Control and Prevention，CDC）的监测报告相比对。但是2013年2月，《自然》杂志发文指出，GFT预测的流感样病例门诊数超过了CDC根据全美各实验室监测报告得出的预测结果的两倍（但GFT的构建本来就是用来预测CDC的报告结果的）。

研究第一作者大卫·拉泽(David Lazer)认为造成这种结果的两个重要原因分别是“大数据傲慢”(Big Data Hubris)和算法变化。

“大数据傲慢”指的是这样一种观点：即认为大数据可以完全取代传统的数据收集方法，而非作为后者的补充。这种观点的最大问题在于，绝大多数大数据与经过严谨科学试验得到的数据之间存在很大的不同。

编写一个将5000万搜索关键词与1152个数据点相匹配的算法是非常困难的，很有可能会出现过度拟合（将噪声误认为信号）的情况：很多关键词只是看似与流感相关，但实际上却并无关联。事实上，在2013年的报道之前，GFT就多次在很长一段时间内过高地估计了流感的流行情况。 2010年的一项研究发现，使用CDC的滞后预测报告（通常滞后两周）来预测当前的流感疫情，其准确性甚至都高于GFT的预测结果。

谷歌搜索引擎的算法并非一成不变的，谷歌对算法会进行不断地调整和改进。而搜索引擎算法的改变和用户的搜索行为会影响GFT的预测结果，比如媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数，进而影响GFT的预测。

另外，相关搜索（People also search for）的算法也会对GFT造成影响。例如搜索“发烧”，相关搜索中会给出关键词“流感”，而搜索“咳嗽”则会给出“普通感冒”。

除此以外，搜索建议（recommended search）也会进一步增加某些热门词汇的搜索频率。

因为GFT会在它的模型中使用相对流行的关键词，所以搜索引擎算法对GFT的预测结果会产生不利影响。奇怪的是，GFT在构建时是基于这样一种假设：特定关键词的相对搜索量和特定事件之间存在相关性，问题是用户的搜索行为并不仅仅受外部事件影响，它还受服务提供商影响。

GFT在2012~2013的流感流行季节里过高的估计了流感疫情；在2011年~2012年则有超过一半的时间过高的估计了流感疫情。从2011年8月21日到2013年9月1日，GFT在为期108周的时间里有100周的预测结果都偏高。上图：对流感样病例门诊数的预测结果；下图：偏差%=（非CDC预测值-CDC预测结值)/CDC预测值，GFT的平均绝对偏差为0.486，CDC滞后模型的平均绝对偏差为0.311，GFT与CDC相结合的平均绝对偏差为0.232。以上统计结果P< 0.05。图片来源：The Parable of Google Flu:Traps in Big Data

拉泽和他的研究团队认为，如果谷歌可以公开衍生数据和汇总数据，那么研究者就可以更好地了解GFT背后的算法。此外，谷歌还需要解决可重复性的问题：利用谷歌的Correlate服务得到的与流感高度相关的关键词与GFT选取的关键词无法匹配。

另外，GFT的优势在于能够提供细化程度非常高的数据（数据粒度小）。因此与CDC相比，GFT的价值在于提供地区水平上的流感疫情预测。而且，GFT非常适合建立流感传播的生成式模型（Generative Model），并且对于预测几个月后的流感疫情具有较高的准确性。

数以百万的工程师和用户在不断改变着搜索引擎算法，而作为研究者则需要更好地理解这些变化，因为正是搜索引擎算法决定了我们最终得到的信息。

在论文的最后作者指出，数据的价值并不仅仅体现在“大小”上。真正核心的改变在于利用创新的数据分析方法去分析数据，这样才能帮助我们更好的理解这个世界。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

数据并非越大越好：谷歌流感趋势错在哪儿了？

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据并非越大越好：谷歌流感趋势错在哪儿了？

热门文章

最新文章

相关课程

相关电子书