开发者学堂课程【高校精品课-北京理工大学-大数据技术导论:谷歌流感预测】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/857/detail/15616
谷歌流感预测
内容介绍:
一、谷歌流感预测是什么
二、谷歌流感预测问题原因
一、谷歌流感预测是什么
谷歌流感预测是大数据分析里面非常经典的一个案例。当谷歌把流感趋势预测这个案例推出来的时候,引起了很多人的关注,因为它是未卜先知的一个例子,常被看作大数据分析的一个优势,他发现了搜索关键词和流感发病率之间的关系。
谷歌它最开始是通过搜索起家,经常会用谷歌的搜索引擎去搜索数据,在搜索引擎里面输入数据的时候叫输入关键词,谷歌就通过输入的关键词。建立起关键词和流感发病率之间的关系,GFT 谷歌的浏览预测,亮出了十分惊艳的成绩单,在零九年 GFT 团队,在自然发文报告只需分析数十亿搜索中的45个关键词,45个关键词就能够比 CDC(实际上是美国的疾病预防控制中心)提前两周预报2007到2008年的这个流感的发病率,一天的提前,都会带来更多的价值。可以采取更多的措施,可以避免更多的人染上流感,所以谷歌亮出成绩单之后,受到了大家非常广泛的这个关注
二、谷歌流感预测问题原因
在这张图可以看出,谷歌流感趋势和美国疾控中心的这个数据的对比,前面的红线和黄线还是非常吻合的,说明预测的还是非常准的,但也会发现。在后边2011年到2012年这段时间,它的差距会比较大,说明预测不准了,出现问题了,有人去分析了这个出现问题的原因,主要有三个方面。
第一个方面,认为过度的拟合导致了谷歌预测的不准,用前几年的数据,比如04、05、06年的数据去预测07、08年的情况,因为前几年匹配的很好,但是它后面会有些突发情况,比如说反季节的情况,一般会认为冬天容易发生流感,但夏天也可能出现流感的爆发,那这这些反常的信息反常的情况,在谷歌里面可能就没有预测到,所以就会导致预测不准,过拟合,过于与04、05、06年的数据进行结合。过于相关,所以导致后边一些特殊的场景,它变得不准。
第二个问媒体的过度关注,因为流感预测一出现,大家都很关心,因为它很有效,提前两周预测出来,所以媒体很关注,很多人关注,有群众我民众会关注,科学家也关注,导致谷歌浏览器搜索这个关键词,自然对谷歌的模型会产生影响,所以也可能导致不准,这是谷歌的一个结论。
还有一种分析,是认为这个算法的演化,谷歌的搜索引擎服务于两个目的一是为用户找出最有价值的信息,第二个目的是要能够赚更多的广告的收入,谷歌的算法工程师就要围绕这两个目标去不断的去改进他的算法。改进算法的结果是他就会给用户推荐一些关键词,大家经常会用到这个搜索引擎,用户在输入关键词的时候会给你推荐一堆相关的关键词,但这些关键词并不一定是你想要的,所以导致导致搜索的关键词不是我本意,不是我真正想的关键词,就会导致预测的不准。所以这是。
三个方面的原因可能会导致这个预测的不准。这是我们谷歌流感预测的例子,在这个例子里面谷歌通过搜索的关键词以及流感的发病率之间建立起了联系,建立起了这种关联性,带来了流感预测的价值,这对我们很有启发的。所以这个例子,在几年前很受大家所推崇,很多人的关注。