[Spark][Python]groupByKey例子

简介:

Spark Python 索引页

[Spark][Python]sortByKey 例子 的继续:

[Spark][Python]groupByKey例子

In [29]: mydata003.collect()

Out[29]: 
[[u'00001', u'sku933'],
[u'00001', u'sku022'],
[u'00001', u'sku912'],
[u'00001', u'sku331'],
[u'00002', u'sku010'],
[u'00003', u'sku888'],
[u'00004', u'sku411']]

In [30]: mydata005=mydata003.groupByKey()

In [32]: mydata005.count()
Out[32]: 4

In [33]: mydata005.collect()
Out[33]: 
[(u'00004', <pyspark.resultiterable.ResultIterable at 0x7fcebe436b10>),
(u'00001', <pyspark.resultiterable.ResultIterable at 0x7fcebe436850>),
(u'00003', <pyspark.resultiterable.ResultIterable at 0x7fcebe436050>),
(u'00002', <pyspark.resultiterable.ResultIterable at 0x7fcebe4361d0>)]

那么,对于这种:

(00004,sku411)
(00003,sku888)
(00003,sku022)
(00003,sku010)
(00003,sku594)
(00002,sku912)

理论上变成了这样形式的:

(00002,[sku912,sku331])
(00001,[sku022,sku010,sku933])
(00003,[sku888,sku022,sku010,sku594])
(00004,[sku411])

我们如何把它们都打印输出成如下的格式,我考虑需要用到函数,然后对RDD的每行的Value,看作list,再来遍历。
(等待下次编写)

00002
sku912
sku331

00001
sku022
sku010
sku933

00003
sku088
sku022
sku022
sku010
sku594

00004
sku411

 Spark Python 索引页












本文转自健哥的数据花园博客园博客,原文链接:http://www.cnblogs.com/gaojian/p/7612896.html,如需转载请自行联系原作者
目录
相关文章
|
7天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
3月前
|
分布式计算 Java Scala
Spark编程语言选择:Scala、Java和Python
Spark编程语言选择:Scala、Java和Python
Spark编程语言选择:Scala、Java和Python
|
4月前
|
分布式计算 大数据 Linux
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
100 0
|
9月前
|
分布式计算 Spark Python
python调用spark示例
python调用spark示例
84 0
|
分布式计算 关系型数据库 MySQL
使用python+spark爬取百度热搜写入mysql
本次算是爬取的第一个demo,百度热搜只是用来测试,写入的mysql也肯定不是最优解,到后期应该会写入到hbase中,spark也大概会换成flink,不过目前还是spark+mysql
138 0
|
机器学习/深度学习 数据挖掘 数据处理
5个例子比较Python Pandas 和R data.table
5个例子比较Python Pandas 和R data.table
100 0
5个例子比较Python Pandas 和R data.table
|
索引 Python
Python基础教程(第二版)例子程序__getitem__函数
Python基础教程(第二版)例子程序__getitem__函数
105 2
|
JavaScript Python
《Python数据科学实践指南》一0.4 一个简单的例子
下面是一段用Python编写的有趣的代码,这里所用的模块并不会在本书中进行讲解,仅仅是向购买本书的你表示我的感激。
1095 0