RDD 的缓存_缓存的意义_案例介绍 | 学习笔记

简介: 快速学习 RDD 的缓存_缓存的意义_案例介绍

开发者学堂课程【大数据Spark2020最新课程(知识精讲与实战演练)第二阶段RDD 的缓存_缓存的意义_案例介绍学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11996


RDD 的缓存_缓存的意义_案例介绍


RDD 有三个特性是我们需要着重了解的

第一个是分区和 Shuffle ,第二个是缓存,第三个是 Checkpoint

RDD 的缓存,第一部分是 RDD 缓存的意义;第二部分是所说的这个缓存怎么去使用,那么 RDD 的缓存的 API ;第三部分要去简单地说一说 RDD 的缓存级别,这是我们的三大知识点。

首先对于第一个知识点来说,简单来说,其实我个人认为了解缓存的意义甚至比理解缓存 API 要更重要。

缓存也是 RDD 当中非常重要也是非常厉害的一个特性。

缓存意义通过一个案例来说明问题。

第一步,肯定还是要去查看数据集;第二部分,要去说一说需求;第三部分,说一说步骤;第四部分,说一说代码。按照这个步骤,去分析,那么打开的 Idea

image.png

首先,这个数据集采用原来使用过的一个数据集叫做  

access_log_sample

打开这个数据集以后,注意到这个数据集当中,横纵来看,首先对于纵列来说的,这一列就是 IP 地址。

横向来看的话,每一条数据其实就是一个 IP 的访问记录。现在需要统计什么东西呢?统计出现访问次数最多的 IP ,注意统计的是 IP 。还有一个需求就是统计访问次数最少的 IP 。如果是这样的话,我们的需求应该怎么去做呢?非常简单,我们再去创建一个文件,我们去把这个文件先创建出来,这个文件,就叫做 Cache Op ,这个文件创建出来以后,我们先创建出来一个方法。创建出来方法以后,就叫做 prepare

步骤:

第一步,肯定要创建 SC ;然后,第二步要统计的是 IP ,他访问最少的那个 IP 和访问最多的那个 IP ,所以,应该先把 IP 取出来,读取文件;第三步,取出 IP

IP 那一列,取出 IP 以后要进行一次过滤清洗。

再接下来,是要去怎么着统计 IP 出现的次数。如果这一步要统计 IP 出现的次数的话,那么在这个位置是要赋予初始词频,赋予初始频率。

第六步,统计出现次数最少的 IP ,第七步,统计出现次数最多的 IP 。接下来就按照这个步骤来实现整个案例。

相关文章
|
存储 缓存 分布式计算
187 RDD的缓存
187 RDD的缓存
87 0
|
8月前
|
存储 数据挖掘 虚拟化
vsan数据恢复—vsan缓存盘故障导致虚拟机磁盘文件丢失的数据恢复案例
VMware vsan架构采用2+1模式。每台设备只有一个磁盘组(7+1),缓存盘的大小为240GB,容量盘的大小为1.2TB。 由于其中一台主机(0号组设备)的缓存盘出现故障,导致VMware虚拟化环境中搭建的2台虚拟机的磁盘文件(vmdk)丢失。
|
8月前
|
存储 缓存 分布式计算
【赵渝强老师】Spark RDD的缓存机制
Spark RDD通过`persist`或`cache`方法可将计算结果缓存,但并非立即生效,而是在触发action时才缓存到内存中供重用。`cache`方法实际调用了`persist(StorageLevel.MEMORY_ONLY)`。RDD缓存可能因内存不足被删除,建议结合检查点机制保证容错。示例中,读取大文件并多次调用`count`,使用缓存后执行效率显著提升,最后一次计算仅耗时98ms。
196 0
【赵渝强老师】Spark RDD的缓存机制
|
12月前
|
缓存 JavaScript 前端开发
vue2基础组件通信案例练习:把案例Todo-list改写成本地缓存
vue2基础组件通信案例练习:把案例Todo-list改写成本地缓存
102 5
|
12月前
|
缓存 JavaScript 前端开发
vue2基础组件通信案例练习:把案例Todo-list改写成本地缓存
vue2基础组件通信案例练习:把案例Todo-list改写成本地缓存
48 1
|
缓存 Java 数据库连接
使用MyBatis缓存的简单案例
MyBatis 是一种流行的持久层框架,支持自定义 SQL 执行、映射及复杂查询。本文介绍了如何在 Spring Boot 项目中集成 MyBatis 并实现一级和二级缓存,以提高查询性能,减少数据库访问。通过具体的电商系统案例,详细讲解了项目搭建、缓存配置、实体类创建、Mapper 编写、Service 层实现及缓存测试等步骤。
143 2
|
存储 缓存 分布式计算
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
144 4
|
缓存 NoSQL Java
案例 采用Springboot默认的缓存方案Simple在三层架构中完成一个手机验证码生成校验的程序
案例 采用Springboot默认的缓存方案Simple在三层架构中完成一个手机验证码生成校验的程序
271 5
|
缓存 NoSQL 关系型数据库
数据库缓存一致性学习笔记(一)
数据库缓存一致性学习笔记(一)