UpdateStateByKey、Tranform 算子_3|学习笔记

简介: 快速学习 UpdateStateByKey、Tranform 算子_3

开发者学堂课程【大数据实时计算框架 Spark 快速入门: UpdateStateByKey、Tranform 算子_3】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1726


UpdateStateByKey、Tranform 算子_3


内容简介:

一、transform 事例

二、相关代码

 

一、transform 事例

可以通过 transform 算子,对 Dstream 做 RDD 到 RDD 的任意操作。其实就是DStream 的类型转换。transform 是一个 transformation 类算子。

 

二、相关代码

56throws Exception {

57

58 JavaPairRDD>>joinedRDO =

59 userLogBatchRDD.leftOuterJoin(blacklistRDD);

60

61JavaPairRDD>> filteredRDD m

62joinedRDD.filter(new Function>,Boolean>()

63

64private static final long serialVersionUID = 1L;

65

66@Override

67public Boolean call(Tuple2>> tuple)

68throws Exception {

69

70if(tuple._2._2.isPresent()&&tuple._2._2.get()){

71return false;

72

74return true;

75

76});

77

78JavaRDDvalidLogRDDfilteredRDD.map(new Function

79

80private static final long serialVersionUID= 1L;

81

82@Override

83public String call(

84Tuple2>> tuple)

85throws Exception{

86return tuple._2.1:

87}

88});

89

90return validLogRDD;

91 }

92 });

93

相关文章
|
19天前
|
机器学习/深度学习 存储 缓存
ATB概念之:算子tiling
算子 tiling 是一种优化技术,用于提高大规模张量运算的计算效率。它通过将大任务分解为小块,优化内存使用、支持并行计算,并防止内存溢出。在ATB中,tiling data指kernel的分片参数,用于指导计算。ATB提供了三种 tiling data 搬移策略:整体搬移、多stream搬移及随kernel下发搬移,旨在优化内存拷贝任务,提高计算效率。
|
19天前
|
存储 缓存 前端开发
ATB算子实现原理解读
本文详细介绍了Ascend Transformer Boost(ATB)加速库中三种类型算子的执行流程及其与CANN中其他算子的区别。文章首先概述了ATB算子的实现步骤,接着深入解析了单算子和图算子的执行流程,包括kernel图构建、输入准备、内存计算、tiling数据处理及任务下发等环节。此外,还探讨了ATB在host侧性能优化上的几种机制,如Tiling Cache、Setup与InferShape复用、Runner Pool等,以及ATB中的内存优化与管理策略。最后,介绍了Context类的功能和作用,包括它如何管理ATB内部的各种公共资源。
|
7月前
|
机器学习/深度学习 分布式计算 数据库连接
[Spark精进]必须掌握的4个RDD算子之filter算子
[Spark精进]必须掌握的4个RDD算子之filter算子
166 2
|
存储 缓存 分布式计算
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
158 0
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
|
分布式计算
|
分布式计算 算法 大数据
Rdd 算子_转换_mapvalues | 学习笔记
快速学习 Rdd 算子_转换_mapvalues
136 0
Rdd 算子_转换_mapvalues | 学习笔记
|
分布式计算 大数据 开发者
RDD 算子_转换_ aggregateByKey | 学习笔记
快速学习 RDD 算子_转换_ aggregateByKey
117 0
RDD 算子_转换_ aggregateByKey | 学习笔记
|
分布式计算 大数据 Spark
Rdd 算子_转换_回顾 | 学习笔记
快速学习 Rdd 算子_转换_回顾
Rdd 算子_转换_回顾 | 学习笔记
|
分布式计算 算法 大数据
RDD 算子_转换_ combineByKey | 学习笔记
快速学习 RDD 算子_转换_ combineByKey
134 0
RDD 算子_转换_ combineByKey | 学习笔记
|
分布式计算 大数据 Scala
RDD 算子_转换_ foldByKey | 学习笔记
快速学习 RDD 算子_转换_ foldByKey
170 0
RDD 算子_转换_  foldByKey | 学习笔记