RDD 算子_转换_总结 | 学习笔记

简介: 快速学习 RDD 算子_转换_总结

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段RDD 算子_转换_总结】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11979


RDD 算子_转换_总结


内容介绍

一、前言

二、算子归类


一、前言

前面我们学习了很多算子,它们都是转换类型的算子,最重要的一个特点就是它们是惰性的。即在使用Transformation 操作后,并不会立即执行,而是要调用 Action 操作后,才会执行整个程序。

 

二、算子归类

第一类可以直接称之为转换。例如 map ,将数据从一种形式转化成另一种形式;mapPartitions ,是将一个分区里的数据从一种形式转化成另一种形式; mapValues ,转换 KV 类型的 Value 。第二类称之为过滤,它是一个单独定义的类别。例如, filter 是一个过滤, sample 是一个采样。第三类称之为集合操作。例如 intersection,交集; union ,并集; subtract ,叉集。第四类称之为叫聚合操作。例如 reduceByKey ,按照 Key 进行 reduce ;groupByKey ,用于将 Key 进行分组; combineByKey ,灵活性更高,是一个底层算子; foldByKey ,对原始数据进行一次处理;aggregateByKey ,也是一个底层算子。 sortBy sortByKey 也算聚合操作,前者是用于手动指定某一部分的数据进行排序,后者是指定的 KV 型数据按照 Key 进行排序,第五类称之为叫做重分区。它有两个操作算子, repartition coalesce ,前者默认情况下的分区数可增可减少,coalesce 默认只能减少。

相关文章
|
安全 测试技术 Linux
multiOTP配置安装
https://code.google.com/p/google-authenticator/ 是google提供的OTP解决方案。   http://www.multiotp.net/ 是一个开源otp验证解决方案,继承了google的OTP方案, 可以通过pam模块与Radius验证服务器集成,安装包已经包括了Radius和Google OTP 模块。
2599 0
|
数据采集 监控 物联网
MQTT协议在智能制造中的应用案例与效益分析
【6月更文挑战第8天】MQTT协议在智能制造中的应用案例与效益分析
513 1
|
jenkins 持续交付 开发工具
【gitlab】旧的gitlab项目迁移新的gitlab
【gitlab】旧的gitlab项目迁移新的gitlab
2134 0
|
存储 弹性计算 编解码
阿里云4核8G服务器租用一年多少钱?公网带宽和系统盘费用价格
阿里云4核8G服务器租用价格,包括CPU内存、公网带宽和系统盘费用价格
579 0
阿里云4核8G服务器租用一年多少钱?公网带宽和系统盘费用价格
|
14天前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
5天前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
8天前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
810 27