RDD 算子_ Action _总结 | 学习笔记

简介: 快速学习 RDD 算子_ Action _总结

开发者学堂课程【大数据Spark2020最新课程(知识精讲与实战演练)第二阶段RDD 算子_ Action _总结学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11984


RDD 算子_ Action _总结


内容介绍

一、前言

二、总结


一、前言

我们了解 RDD 如何使用,其实就是了解它的各种算子。前面的学习中介绍了转换算子和部分Action 算子。


二、总结

第一个介绍的 Action 算子是 reduce ,并把它与 reduceByKey 来进行了对比,也是有一点点难度的算子。

介绍了一个辅助算子,叫做 foreach ,可以直接针对 RDD 进行

foreach foreach 后的数据顺序会发生改变,因为整个运算过程是

并行的。

后面又介绍了 count countByKey ,它们都是求总数的,一个是求整个数据集的总数,一个是按照 Key 求总数。 countByKey 经常用于查看数据倾斜。

最后了解了 take takeSample first 三个算子,它们也是用于

Action 直接获取数据。 takeSample Sample 最大的区别是,

takeSample 直接可以获取结果, Sample 则需要转换,然后进行

Action 获取结果。

take 可以直接获取数据, first 获取第一个数据。

但是 first 跟其他算子不一样,它直接去找第一个分区,获取一个数据

即可,获取速度相当快。

这是整个 Action 部分的算子,至此,整个 Action 操作的内容就到此结束了。

相关文章
|
14天前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
5天前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
8天前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
810 27
|
8天前
|
机器学习/深度学习 人工智能 搜索推荐
万字长文深度解析最新Deep Research技术:前沿架构、核心技术与未来展望
近期发生了什么自 2025 年 2 月 OpenAI 正式发布Deep Research以来,深度研究/深度搜索(Deep Research / Deep Search)正在成为信息检索与知识工作的全新范式:系统以多步推理驱动大规模联网检索、跨源证据。
537 46
|
1天前
|
监控 BI 数据库
打工人救星!来看看这两家企业如何用Quick BI让业务更高效
Quick BI专业版监控告警助力企业高效运作,通过灵活配置规则与多渠道推送,让数据异常早发现、快响应,推动业务敏捷决策与持续增长。
打工人救星!来看看这两家企业如何用Quick BI让业务更高效
|
7天前
|
人工智能 Java Nacos
基于 Spring AI Alibaba + Nacos 的分布式 Multi-Agent 构建指南
本文将针对 Spring AI Alibaba + Nacos 的分布式多智能体构建方案展开介绍,同时结合 Demo 说明快速开发方法与实际效果。
529 44