数据并非越大越好:谷歌流感趋势错在哪儿了?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据为研究人类行为和人与人之间大规模的互动提供了新的方式。然而,由于大数据的搜集做不到像“小数据”那样精确,因此分析解读大数据是一件十分复杂的事。

大数据为研究人类行为和人与人之间大规模的互动提供了新的方式。然而,由于大数据的搜集做不到像“小数据”那样精确,因此分析解读大数据是一件十分复杂的事。一项发表在《科学》杂志政策论坛上的新研究利用“谷歌流感趋势”(Google Flu Trends,GFT)作为范例,解释了大数据分析为何会背离事实,并提出了大数据时代背景下一些值得思考的事。

谷歌发现某些搜索关键词可以很好地标示流感疫情的现状。GFT的工作原理就是使用经过汇总的谷歌搜索数据来估测流感疫情,其预测结果将与美国疾病预防控制中心(Centers for Disease Control and Prevention,CDC)的监测报告相比对。但是2013年2月,《自然》杂志发文指出,GFT预测的流感样病例门诊数超过了CDC根据全美各实验室监测报告得出的预测结果的两倍(但GFT的构建本来就是用来预测CDC的报告结果的)。

研究第一作者大卫·拉泽(David Lazer)认为造成这种结果的两个重要原因分别是“大数据傲慢”(Big Data Hubris)和算法变化。

“大数据傲慢”指的是这样一种观点:即认为大数据可以完全取代传统的数据收集方法,而非作为后者的补充。这种观点的最大问题在于,绝大多数大数据与经过严谨科学试验得到的数据之间存在很大的不同。

编写一个将5000万搜索关键词与1152个数据点相匹配的算法是非常困难的,很有可能会出现过度拟合(将噪声误认为信号)的情况:很多关键词只是看似与流感相关,但实际上却并无关联。事实上,在2013年的报道之前,GFT就多次在很长一段时间内过高地估计了流感的流行情况。 2010年的一项研究发现,使用CDC的滞后预测报告(通常滞后两周)来预测当前的流感疫情,其准确性甚至都高于GFT的预测结果。

谷歌搜索引擎的算法并非一成不变的,谷歌对算法会进行不断地调整和改进。而搜索引擎算法的改变和用户的搜索行为会影响GFT的预测结果,比如媒体对于流感流行的报道会增加与流感相关的词汇的搜索次数,进而影响GFT的预测。

另外,相关搜索(People also search for)的算法也会对GFT造成影响。例如搜索“发烧”,相关搜索中会给出关键词“流感”,而搜索“咳嗽”则会给出“普通感冒”。

除此以外,搜索建议(recommended search)也会进一步增加某些热门词汇的搜索频率。

因为GFT会在它的模型中使用相对流行的关键词,所以搜索引擎算法对GFT的预测结果会产生不利影响。奇怪的是,GFT在构建时是基于这样一种假设:特定关键词的相对搜索量和特定事件之间存在相关性,问题是用户的搜索行为并不仅仅受外部事件影响,它还受服务提供商影响。

GFT在2012~2013的流感流行季节里过高的估计了流感疫情;在2011年~2012年则有超过一半的时间过高的估计了流感疫情。从2011年8月21日到2013年9月1日,GFT在为期108周的时间里有100周的预测结果都偏高。上图:对流感样病例门诊数的预测结果;下图:偏差%=(非CDC预测值-CDC预测结值)/CDC预测值,GFT的平均绝对偏差为0.486,CDC滞后模型的平均绝对偏差为0.311,GFT与CDC相结合的平均绝对偏差为0.232。以上统计结果P< 0.05。图片来源:The Parable of Google Flu:Traps in Big Data

拉泽和他的研究团队认为,如果谷歌可以公开衍生数据和汇总数据,那么研究者就可以更好地了解GFT背后的算法。此外,谷歌还需要解决可重复性的问题:利用谷歌的Correlate服务得到的与流感高度相关的关键词与GFT选取的关键词无法匹配。

另外,GFT的优势在于能够提供细化程度非常高的数据(数据粒度小)。因此与CDC相比,GFT的价值在于提供地区水平上的流感疫情预测。而且,GFT非常适合建立流感传播的生成式模型(Generative Model),并且对于预测几个月后的流感疫情具有较高的准确性。

数以百万的工程师和用户在不断改变着搜索引擎算法,而作为研究者则需要更好地理解这些变化,因为正是搜索引擎算法决定了我们最终得到的信息。

在论文的最后作者指出,数据的价值并不仅仅体现在“大小”上。真正核心的改变在于利用创新的数据分析方法去分析数据,这样才能帮助我们更好的理解这个世界。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
人工智能 搜索推荐 物联网
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
130 0
|
人工智能 监控 机器人
OpenAI重磅研究:ChatGPT可能影响80%工作岗位,收入越高影响越大
OpenAI重磅研究:ChatGPT可能影响80%工作岗位,收入越高影响越大
114 0
|
机器学习/深度学习 人工智能 自然语言处理
将数学题转化成代码,谷歌这项研究让机器证明的正确率大幅提高
将数学题转化成代码,谷歌这项研究让机器证明的正确率大幅提高
|
机器学习/深度学习 人工智能 自然语言处理
参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」
参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」
134 0
|
机器学习/深度学习 人工智能 数据可视化
人间真实——用interpret可解释分析一下影响年薪收入的因素
近年来,可解释AI(eXplainable AI,XAI)是人工智能的一个热门方向,相关研究内容呈现快速增长趋势。在众多可解释AI相关开源工具中,微软的interpret是一个功能比较全面、展示效果较好的代表,个人在学习了interpret文档后,发现其一个demo中用到的数据集为Adult数据集——一个用于预测个人年收入是否大于50K(单位:$)的人口普查数据集。所以,刚好用interpret来分析一下,影响年薪收入的因素都有哪些,以及影响程度如何
247 0
人间真实——用interpret可解释分析一下影响年薪收入的因素
|
前端开发 数据可视化
你不得不看的干货,不看损失一个亿(上)
你不得不看的干货,不看损失一个亿
你不得不看的干货,不看损失一个亿(上)
|
JavaScript 前端开发
你不得不看的干货,不看损失一个亿(下)
你不得不看的干货,不看损失一个亿
你不得不看的干货,不看损失一个亿(下)
生殖器受损无法孕育后代?科学家找到男性群体解决办法
这一研究成果已经在《科学》杂志上发表。
496 0
2017已经接近尾声,然而我却什么都没干成
从辞职到现在不知不觉已经过了7、8个月,在家东搞搞西搞搞,回过头来的时候发现17年已经所剩无几。上一篇的博文还是2年前的随笔,时隔两年多,再次敲击键盘写博客的时候,却感觉自己无从下手,似乎有好多东西需要书写,但是却又不知从何下笔。
1248 0