备案控制台

开发者社区大数据文章正文

Spark：pyspark的WordCount实现

2022-10-25 143

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spark：pyspark的WordCount实现

Spark：pyspark的WordCount实现

本次基于pyspark
新建一个data.txt文件用于本次作业

hello this is a spark demo!
welecome to here
a hot day
hot

本地读取文件

#读取本地文本文件
lines = sc.textFile("data.txt")
#通过flatMap操作把所有数据转行成rdd，把数据压成一列
result = lines.flatMap(lambda line : line.split(' ')
result.collect()

输出结果如下：
在这里插入图片描述

#把每一个元素转化成元组
result1 = result.map(lambda word : (word,1))

输出结果如下：在这里插入图片描述

#按key聚合累加
result2 = result1.reduceByKey(lambda a,b:a+b)
result2.collect()

输出结果如下：
在这里插入图片描述

文章标签：

分布式计算

Spark

关键词：

apache spark wordcount

apache spark pyspark

HanZee

目录

相关文章

阿甘兄

|

6月前

|

分布式计算 Java Scala

181 Spark IDEA中编写WordCount程序

181 Spark IDEA中编写WordCount程序

阿甘兄

35 0 0

theMilkyWay`

|

6月前

|

SQL 分布式计算 HIVE

pyspark笔记（RDD,DataFrame和Spark SQL）1

pyspark笔记（RDD,DataFrame和Spark SQL）

theMilkyWay`

60 1 1

诸葛子房

|

2天前

|

SQL 分布式计算 Java

Spark 基础教程：wordcount+Spark SQL

Spark 基础教程：wordcount+Spark SQL

诸葛子房

36 0 0

Maynor

|

2天前

|

分布式计算大数据 Linux

Python大数据之PySpark(三)使用Python语言开发Spark程序代码

Python大数据之PySpark(三)使用Python语言开发Spark程序代码

Maynor

121 0 0

theMilkyWay`

|

6月前

|

SQL 存储分布式计算

pyspark笔记（RDD,DataFrame和Spark SQL）2

pyspark笔记（RDD,DataFrame和Spark SQL）

theMilkyWay`

56 2 2

theMilkyWay`

|

6月前

|

分布式计算资源调度 Java

Spark笔记（pyspark）2

Spark笔记（pyspark）

theMilkyWay`

71 0 0

theMilkyWay`

|

6月前

|

存储分布式计算资源调度

Spark笔记（pyspark）1

Spark笔记（pyspark）

theMilkyWay`

71 0 0

阿甘兄

|

6月前

|

分布式计算 Linux 流计算

194 Spark Streaming实现实时WordCount

194 Spark Streaming实现实时WordCount

阿甘兄

34 0 0

星光下的赶路人

|

9月前

|

存储缓存分布式计算

Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化（二）

Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化（二）

星光下的赶路人

59 0 0

星光下的赶路人

|

9月前

|

存储缓存分布式计算

Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化（一）

Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化（一）

星光下的赶路人

72 0 0

热门文章

最新文章

[AIGC大数据基础] Spark 入门

【Flink】Flink跟Spark Streaming的区别？

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

Spark 源码分析 -- BlockStore

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

地铁译：Spark for python developers --- 搭建Spark虚拟环境3

Spark RDD类源码阅读

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考