谷歌流感预测|学习笔记

简介: 快速学习谷歌流感预测

开发者学堂课程【高校精品课-北京理工大学-大数据技术导论:谷歌流感预测】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/857/detail/15616


谷歌流感预测

 

内容介绍:

一、谷歌流感预测是什么

二、谷歌流感预测问题原因 

 

一、谷歌流感预测是什么

谷歌流感预测是大数据分析里面非常经典的一个案例。当谷歌把流感趋势预测这个案例推出来的时候,引起了很多人的关注,因为它是未卜先知的一个例子,常被看作大数据分析的一个优势,他发现了搜索关键词和流感发病率之间的关系。

谷歌它最开始是通过搜索起家,经常会用谷歌的搜索引擎去搜索数据,在搜索引擎里面输入数据的时候叫输入关键词,谷歌就通过输入的关键词。建立起关键词和流感发病率之间的关系,GFT 谷歌的浏览预测,亮出了十分惊艳的成绩单,在零九年 GFT 团队,在自然发文报告只需分析数十亿搜索中的45个关键词,45个关键词就能够比 CDC实际上是美国的疾病预防控制中心提前两周预报2007到2008年的这个流感的发病率,一天的提前,会带来更多的价值。可以采取更多的措施,可以避免更多的人染上流感,所以谷歌亮出成绩单之后,受到了大家非常广泛的这个关注

二、谷歌流感预测问题原因

图片230.png

在这张图可以看出,谷歌流感趋势和美国疾控中心的这个数据的对比,前面的红线和黄线还是非常吻合的,说明预测的还是非常准的,但也会发现。在后边2011年到2012年这段时间,它的差距会比较大,说明预测不准了,出现问题了,有人去分析了这个出现问题的原因,主要有三个方面。

第一个方面,认为过度的拟合导致了谷歌预测的不准,用前几年的数据,比如040506年的数据去预测0708年的情况,因为几年匹配的很好,但是它后面会有些突发情况,比如说反季节的情况,一般会认为冬天容易发生流感但夏天也可能出现流感的爆发,那这这些反常的信息反常的情况,在谷歌里面可能就没有预测到,所以就会导致预测不准,过拟合,过于与040506年的数据进行结合。过于相关,所以导致后边一些特殊的场景,它变得不准。

第二个问媒体的过度关注,因为流感预测一出现,大家都很关心,因为它很有效,提前两周预测出来,所以媒体很关注,很多人关注,有群众我民众会关注,科学家也关注,导致谷歌浏览器搜索这个关键词,自然对谷歌的模型会产生影响,所以也可能导致不准,这是谷歌的一个结论。

还有一种分析,是认为这个算法的演化,谷歌的搜索引擎服务于两个目的一是为用户找出最有价值的信息,第二个目的是要能够赚更多的广告的收入,谷歌的算法工程师就要围绕这两个目标去不断的去改进他的算法。改进算法的结果是他就会给用户推荐一些关键词,大家经常会用到这个搜索引擎,用户在输入关键词的时候会给你推荐一堆相关的关键词,但这些关键词并不一定是你想要的,所以导致导致搜索的关键词不是我本意,不是我真正想的关键词,就会导致预测的不准。所以这是

三个方面的原因可能会导致这个预测的不准。这是我们谷歌流感预测的例子,在这个例子里面谷歌通过搜索的关键词以及流感的发病率之间建立起了联系,建立起了这种关联性带来了流感预测的价值,这对我们很有启发的。所以这个例子,在几年前很受大家所推崇,很多人的关注

相关文章
|
26天前
|
机器学习/深度学习 人工智能 分布式计算
蚁群、蜂群的智慧,大模型也可以有,谷歌等机构群体智能研究亮相
蚁群和蜂群以其独特的群体智能行为著称,如分布式决策、自组织性和鲁棒性。这些特性启发了科学家将群体智能原理应用于大模型的构建,以实现更高效、更智能的系统。谷歌等机构已通过模拟这些行为,开发出如“蚁群优化”算法等成果,显著提高了计算效率和系统的鲁棒性。然而,群体智能的应用仍面临通信协调、个体差异性和可解释性等挑战。
32 3
|
4月前
|
人工智能 算法 数据安全/隐私保护
无表情人脸预测政治信仰,AI准确率惊人!斯坦福研究登国际顶刊
【8月更文挑战第10天】斯坦福大学的研究揭示了面部识别技术的新应用:通过分析无表情人脸图片预测政治倾向。研究在《American Psychologist》发表,表明人类评估者与AI均能在控制人口统计学特征的情况下准确预测政治取向,相关系数分别为0.21和0.22。利用年龄、性别和种族信息时,算法准确性提升至0.31。研究还发现保守派倾向于有更大的下半部面部。尽管成果引人注目,但其局限性和潜在的隐私问题仍需审慎考量。
149 62
|
机器学习/深度学习 存储 算法
顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!
顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!
239 0
|
机器学习/深度学习 数据可视化 安全
机器学习实战:意大利Covid-19病毒感染数学模型及预测
机器学习实战:意大利Covid-19病毒感染数学模型及预测
267 0
机器学习实战:意大利Covid-19病毒感染数学模型及预测
|
机器学习/深度学习 SQL 存储
头条实验室科学家李磊:准确率更高的问答系统和概率程序语言
李磊是今日头条实验室科学家,原百度美国深度学习实验室少帅科学家。卡耐基梅隆大学计算机系博士,曾在加州大学伯克利分校作博士后研究。李磊博士的研究论文在 IJCAI 等学术会议上多有收录,如今正在召开的 ACL 2016 同样收录了李磊博士的一篇论文。机器之心近日对李磊进行了专访,在此篇专访中,他向我们介绍了被收录的论文,还有他对概率程序语言、自然语言处理方面的理解。
378 0
头条实验室科学家李磊:准确率更高的问答系统和概率程序语言
|
传感器 机器学习/深度学习 人工智能
AAAI-17获奖论文深度解读(下):蒙特卡罗定位和推荐系统
前天机器之心的头条文章深度解读了 AAAI-17 大会评出的杰出论文和 Blue Sky Idea Awards 获奖论文,今天机器之心分析师则为我们带来了对 AAAI-17 两篇经典论文奖获奖论文的深度解读。论文原文可点击文末「阅读原文」下载。
500 0
 AAAI-17获奖论文深度解读(下):蒙特卡罗定位和推荐系统
|
机器学习/深度学习 Python
ML之预测:玩转2018世界杯—采用机器学习预测小组赛、十六比赛、四决赛、半决赛、决赛以及世界杯总冠军的各个队伍
ML之预测:玩转2018世界杯—采用机器学习预测小组赛、十六比赛、四决赛、半决赛、决赛以及世界杯总冠军的各个队伍
ML之预测:玩转2018世界杯—采用机器学习预测小组赛、十六比赛、四决赛、半决赛、决赛以及世界杯总冠军的各个队伍
|
机器学习/深度学习 算法 数据挖掘
在线电视剧的受众竞争力预测和分析 | KDD论文解读
目前,网络视频平台的主要流量来自于热门电视剧,而平台的核心收益就是在这些流量上进行广告投放。通过准确预估剧目流量可以优化广告投放效果从而提高收益。但是,仅仅预测流量还不足以回答更深层次的问题。例如,平台未来要采购哪些剧目?这不仅要考虑剧目带来的流量,还要考虑平台内剧目的竞争关系,以避免造成热度内耗问题。所以,本文通过竞争力问题定义、算法设计以及实验对比,在剧目受众竞争力问题上进行了初步探索。
在线电视剧的受众竞争力预测和分析 | KDD论文解读
|
算法 计算机视觉
CVPR阿里优秀论文 | 基于时间尺度选择的在线行为预测
在线行为预测指的是当一个动作还未执行完之前,算法使用已经观测到的这些片段来预测该动作的类别。
1534 0