开发者社区大数据文章正文

[Spark][Python]sortByKey 例子

2017-12-11 1472

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

[Spark][Python]sortByKey 例子：

[training@localhost ~]$ hdfs dfs -cat test02.txt
00002 sku010
00001 sku933
00001 sku022
00003 sku888
00004 sku411
00001 sku912
00001 sku331
[training@localhost ~]$

mydata001=sc.textFile("test02.txt")
mydata002=mydata001.map(lambda line: line.split(' '))

mydata002.take(3)
Out[4]: [[u'00002', u'sku010'], [u'00001', u'sku933'], [u'00001', u'sku022']]

mydata003=mydata002.sortByKey()

In [9]: mydata003.take(5)

Out[9]:
[[u'00001', u'sku933'],
[u'00001', u'sku022'],
[u'00001', u'sku912'],
[u'00001', u'sku331'],
[u'00002', u'sku010']]

In [10]:

API 参考：
https://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD

本文转自健哥的数据花园博客园博客，原文链接：http://www.cnblogs.com/gaojian/p/7612792.html，如需转载请自行联系原作者

文章标签：

Python

分布式计算

Spark

API

关键词：

apache spark Python

Python spark

Python例子

spark Python例子

嗯哼9925

土木林森

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

土木林森

968 1 2

叫做饺子

分布式计算 Apache Spark

Python与Apache Spark：实时AI的大数据引擎——Spark Streaming实战

7月更文挑战第9天

叫做饺子

414 0 0

wishCoding

机器学习/深度学习分布式计算数据处理

在Python中应用Spark框架

wishCoding

219 1 1

拓端数据部落

SQL 分布式计算数据可视化

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

拓端数据部落

164 4 4

肥猪lele01

分布式计算 Shell 调度

看看airflow怎样调度python写的spark任务吧

肥猪lele01

264 0 0

拓端数据部落

新零售分布式计算数据可视化

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

拓端数据部落

1052 0 0

土木林森

分布式计算 Hadoop 大数据

什么是 Hadoop 和 Spark？在 Python 中如何使用它们进行大数据处理？

【1月更文挑战第11天】

土木林森

387 0 0

华章计算机

Python

《Python数据科学实践指南》——0.4　一个简单的例子

华章计算机

1394 0 0

华章计算机

JavaScript Python

《Python数据科学实践指南》一0.4　一个简单的例子

下面是一段用Python编写的有趣的代码，这里所用的模块并不会在本书中进行讲解，仅仅是向购买本书的你表示我的感激。

华章计算机

1162 0 0

九月天空

20天前

数据采集机器学习/深度学习人工智能

Python：现代编程的首选语言

九月天空

191 102 103

[Spark][Python]sortByKey 例子

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

[Spark][Python]sortByKey 例子

热门文章

最新文章

相关课程

相关电子书

推荐镜像