备案控制台

开发者社区大数据文章正文

spark groupByKey 也是可以filter的

2017-11-16 818

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

复制代码

>>> v=sc.parallelize(["one", "two", "two", "three", "three", "three"])
>>> v2=v.map(lambda x: (x,1))
>>> v2.collect()
[('one', 1), ('two', 1), ('two', 1), ('three', 1), ('three', 1), ('three', 1)]  
>>> v3=v2.groupByKey()
>>> v3.collect()
[('one', <pyspark.resultiterable.ResultIterable object at 0x7fd3c7850e90>), ('two', <pyspark.resultiterable.ResultIterable object at 0x7fd3c7850f10>), ('three', <pyspark.resultiterable.ResultIterable object at 0x7fd3c6dc83d0>)]
>>> v4=v3.filter(lambda x:len(x[1].data)>2)
>>> v4.collect()
[('three', <pyspark.resultiterable.ResultIterable object at 0x7fd3c6dc8510>)]

复制代码

过滤了出现次数大于2的结果。

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/7764934.html，如需转载请自行联系原作者

文章标签：

分布式计算

Spark

关键词：

apache spark filter

apache spark groupByKey

桃子红了呐

目录

相关文章

Maynor

|

8月前

|

机器学习/深度学习分布式计算数据库连接

[Spark精进]必须掌握的4个RDD算子之filter算子

[Spark精进]必须掌握的4个RDD算子之filter算子

Maynor

168 2 2

西柚与蓝莓

|

分布式计算 Spark

教材P164操作题。编写Spark Steaming程序，使用leftOuterJoin操作及filter方法过滤掉黑名单的数据

教材P164操作题。编写Spark Steaming程序，使用leftOuterJoin操作及filter方法过滤掉黑名单的数据

西柚与蓝莓

57 0 0

6hkip34i2a7n6

|

SQL 存储分布式计算

spark outer join push down filter rule（spark 外连接中的下推规则）

spark outer join push down filter rule（spark 外连接中的下推规则）

6hkip34i2a7n6

284 0 0

spark outer join push down filter rule（spark 外连接中的下推规则）

黯灭_邓彬

|

SQL 分布式计算 Spark

Spark DataFrame 的 groupBy vs groupByKey

黯灭_邓彬

4596 0 1

yq传送门

EMR Spark Runtime Filter性能优化 | 7月5号云栖夜读

今天的首篇文章，讲述了：Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

yq传送门

3918 0 0

阿里云E-MapReduce团队

|

存储 SQL 分布式计算

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

阿里云E-MapReduce团队

1660 0 0

寒沙牧

|

存储 SQL 分布式计算

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

寒沙牧

5257 0 0

thinktothings

|

分布式计算

Spark PruneDependency 依赖关系 Filter

Spark PruneDependency 依赖关系 Filter Represents a dependency between the PartitionPruningRDD and its parent.

thinktothings

942 0 0

五维空间s

|

分布式计算 Spark

Spark基本的RDD算子之groupBy，groupByKey，mapValues

1. groupby def groupBy[K: ClassTag](f: T => K): RDD[(K, Iterable[T])] def groupBy[K: ClassTag](f: T => K, numPartitions: Int): RDD[(K, Iterable[T])] def groupBy[K: ClassTag](f: T => K, p: Partitioner): RDD[(K, Iterable[T])] groupBy算子接收一个函数，这个函数返回的值作为key，然后通过这个key来对里面的元素进行分组。

五维空间s

13320 0 0

终日而思一

|

SQL 分布式计算 C++

Spark DataFrame 的 groupBy vs groupByKey

终日而思一

6997 0 0

热门文章

最新文章

Spark PruneDependency 依赖关系 RangePartitioner

Spark-spark streaming

【大数据架构】Apache Flink和Apache Spark—比较指南

利用闪存优化在Cosco基础上的Spark Shuffle

spark1.4加载mysql数据创建Dataframe及join操作连接方法问题

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

Spark Shell入门教程（上）

Spark Stage切分源码剖析——DAGScheduler

领英如何应对Apache Spark的Scalability挑战

spark用于分析数据并将数据保存到数据库中是

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

如何解决Spark在深度学习中的资源消耗问题？

Spark在深度学习中的优缺点是什么？

使用Spark进行机器学习

Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

【Spark】Spark基础教程知识点

DataWorks产品使用合集之在DataWorks中，通过spark访问外网的步骤如何解决

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

MaxCompute操作报错合集之spark3.1.1通过resource目录下的conf文件配置，报错如何解决

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

阿里云无影云电脑免费试用，最长可试用3个月