谷歌流感预测|学习笔记

简介: 快速学习谷歌流感预测

开发者学堂课程【高校精品课-北京理工大学-大数据技术导论:谷歌流感预测】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/857/detail/15616


谷歌流感预测

 

内容介绍:

一、谷歌流感预测是什么

二、谷歌流感预测问题原因 

 

一、谷歌流感预测是什么

谷歌流感预测是大数据分析里面非常经典的一个案例。当谷歌把流感趋势预测这个案例推出来的时候,引起了很多人的关注,因为它是未卜先知的一个例子,常被看作大数据分析的一个优势,他发现了搜索关键词和流感发病率之间的关系。

谷歌它最开始是通过搜索起家,经常会用谷歌的搜索引擎去搜索数据,在搜索引擎里面输入数据的时候叫输入关键词,谷歌就通过输入的关键词。建立起关键词和流感发病率之间的关系,GFT 谷歌的浏览预测,亮出了十分惊艳的成绩单,在零九年 GFT 团队,在自然发文报告只需分析数十亿搜索中的45个关键词,45个关键词就能够比 CDC实际上是美国的疾病预防控制中心提前两周预报2007到2008年的这个流感的发病率,一天的提前,会带来更多的价值。可以采取更多的措施,可以避免更多的人染上流感,所以谷歌亮出成绩单之后,受到了大家非常广泛的这个关注

二、谷歌流感预测问题原因

图片230.png

在这张图可以看出,谷歌流感趋势和美国疾控中心的这个数据的对比,前面的红线和黄线还是非常吻合的,说明预测的还是非常准的,但也会发现。在后边2011年到2012年这段时间,它的差距会比较大,说明预测不准了,出现问题了,有人去分析了这个出现问题的原因,主要有三个方面。

第一个方面,认为过度的拟合导致了谷歌预测的不准,用前几年的数据,比如040506年的数据去预测0708年的情况,因为几年匹配的很好,但是它后面会有些突发情况,比如说反季节的情况,一般会认为冬天容易发生流感但夏天也可能出现流感的爆发,那这这些反常的信息反常的情况,在谷歌里面可能就没有预测到,所以就会导致预测不准,过拟合,过于与040506年的数据进行结合。过于相关,所以导致后边一些特殊的场景,它变得不准。

第二个问媒体的过度关注,因为流感预测一出现,大家都很关心,因为它很有效,提前两周预测出来,所以媒体很关注,很多人关注,有群众我民众会关注,科学家也关注,导致谷歌浏览器搜索这个关键词,自然对谷歌的模型会产生影响,所以也可能导致不准,这是谷歌的一个结论。

还有一种分析,是认为这个算法的演化,谷歌的搜索引擎服务于两个目的一是为用户找出最有价值的信息,第二个目的是要能够赚更多的广告的收入,谷歌的算法工程师就要围绕这两个目标去不断的去改进他的算法。改进算法的结果是他就会给用户推荐一些关键词,大家经常会用到这个搜索引擎,用户在输入关键词的时候会给你推荐一堆相关的关键词,但这些关键词并不一定是你想要的,所以导致导致搜索的关键词不是我本意,不是我真正想的关键词,就会导致预测的不准。所以这是

三个方面的原因可能会导致这个预测的不准。这是我们谷歌流感预测的例子,在这个例子里面谷歌通过搜索的关键词以及流感的发病率之间建立起了联系,建立起了这种关联性带来了流感预测的价值,这对我们很有启发的。所以这个例子,在几年前很受大家所推崇,很多人的关注

相关文章
|
SQL 存储 关系型数据库
一文搞懂SQL优化——如何高效添加数据
**SQL优化关键点:** 1. **批量插入**提高效率,一次性建议不超过500条。 2. **手动事务**减少开销,多条插入语句用一个事务。 3. **主键顺序插入**避免页分裂,提升性能。 4. **使用`LOAD DATA INFILE`**大批量导入快速。 5. **避免主键乱序**,减少不必要的磁盘操作。 6. **选择合适主键类型**,避免UUID或长主键导致的性能问题。 7. **避免主键修改**,保持索引稳定。 这些技巧能优化数据库操作,提升系统性能。
1433 4
一文搞懂SQL优化——如何高效添加数据
|
存储 前端开发 API
基于SpringBoot+Vue的智能在线考试系统的设计与实现
基于SpringBoot+Vue的智能在线考试系统的设计与实现
4070 0
|
缓存 资源调度 网络架构
使用国内的npm镜像源
使用国内的npm镜像源
4318 1
|
9月前
|
Web App开发 开发框架 前端开发
Playwright与PyTest结合指南
本教程介绍如何结合Playwright与PyTest进行Web自动化测试,涵盖环境搭建、测试编写、配置管理、Fixtures使用及高级技巧,助你高效构建稳定、可维护的测试方案。
|
人工智能 自然语言处理 搜索推荐
全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型
Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频;Step-Audio 则是行业内首个产品级的开源语音交互模型,通过结合 130B 参数的大语言模型,语音识别模型与语音合成模型,实现了端到端的文本、语音对话生成,能和用户自然地进行高质量对话。PAI Model Gallery 已支持阶跃星辰最新发布的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型的一键部署,本文将详细介绍具体操作步骤。
|
缓存 NoSQL 关系型数据库
redis数据库超级详细(一)
本文介绍了 Redis 的基础与进阶知识。Redis 是一个使用 ANSI C 编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库,属于 NoSQL 数据库。文章详细讲解了 Redis 的安装、配置、数据类型及其操作,包括字符串、哈希、列表、集合和有序集合等。此外,还提供了 Python 操作 Redis 的示例代码,以及 Redis 在实际应用中的几个典型案例,如 KV 缓存、分布式锁、延迟队列、发布订阅和定时任务等。通过这些内容,读者可以全面了解 Redis 的核心功能和应用场景。
1708 1
|
机器学习/深度学习 Python
18 机器学习 - 决策树分类器案例
18 机器学习 - 决策树分类器案例
460 0
|
机器学习/深度学习 算法 数据建模
决策树(Decision Tree)算法详解及python实现
决策树(Decision Tree)算法详解及python实现
3678 0
决策树(Decision Tree)算法详解及python实现
|
存储 算法 NoSQL
Zstandard (zstd)压缩算法在JAVA上的使用
Zstandard (zstd)压缩算法在JAVA上的使用
2659 0
|
自然语言处理 供应链 数据可视化
大数据在市场营销中的应用案例:精准洞察,驱动增长
【8月更文挑战第25天】大数据在市场营销中的应用案例不胜枚举,它们共同展示了大数据技术在精准营销、市场预测、用户行为分析等方面的巨大潜力。通过深度挖掘和分析数据,企业能够更加精准地洞察市场需求,优化营销策略,提升市场竞争力。未来,随着大数据技术的不断发展和普及,其在市场营销领域的应用将更加广泛和深入。
3714 3