Spark:pyspark的WordCount实现

简介: Spark:pyspark的WordCount实现

Spark:pyspark的WordCount实现

本次基于pyspark
新建一个data.txt文件用于本次作业

hello this is a spark demo!
welecome to here
a hot day
hot

本地读取文件

#读取本地文本文件
lines = sc.textFile("data.txt")
#通过flatMap操作把所有数据转行成rdd,把数据压成一列
result = lines.flatMap(lambda line : line.split(' ')
result.collect()

输出结果如下:
在这里插入图片描述

#把每一个元素转化成元组
result1 = result.map(lambda word : (word,1))

输出结果如下:在这里插入图片描述

#按key聚合累加
result2 = result1.reduceByKey(lambda a,b:a+b)
result2.collect()

输出结果如下:
在这里插入图片描述

目录
相关文章
|
6月前
|
分布式计算 Java Scala
181 Spark IDEA中编写WordCount程序
181 Spark IDEA中编写WordCount程序
35 0
|
6月前
|
SQL 分布式计算 HIVE
pyspark笔记(RDD,DataFrame和Spark SQL)1
pyspark笔记(RDD,DataFrame和Spark SQL)
60 1
|
2天前
|
SQL 分布式计算 Java
Spark 基础教程:wordcount+Spark SQL
Spark 基础教程:wordcount+Spark SQL
36 0
|
2天前
|
分布式计算 大数据 Linux
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
121 0
|
6月前
|
SQL 存储 分布式计算
pyspark笔记(RDD,DataFrame和Spark SQL)2
pyspark笔记(RDD,DataFrame和Spark SQL)
56 2
|
6月前
|
分布式计算 资源调度 Java
Spark笔记(pyspark)2
Spark笔记(pyspark)
71 0
|
6月前
|
存储 分布式计算 资源调度
Spark笔记(pyspark)1
Spark笔记(pyspark)
71 0
|
6月前
|
分布式计算 Linux 流计算
194 Spark Streaming实现实时WordCount
194 Spark Streaming实现实时WordCount
34 0
|
9月前
|
存储 缓存 分布式计算
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(二)
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(二)
|
9月前
|
存储 缓存 分布式计算
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(一)
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(一)