开发者社区大数据文章正文

[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子

2017-12-19 1449

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

sqlContext = HiveContext(sc)

peopleDF = sqlContext.read.json("people.json")

peopleRDD = peopleDF.map(lambda row: (row.pcode,row.name))

peopleRDD.take(5)

Out[5]: 

[(u'94304', u'Alice'),

(u'94304', u'Brayden'),

(u'10036', u'Carla'),

(None, u'Diana'),

(u'94104', u'Etienne')]

peopleByPCode= peopleRDD.groupByKey()

peopleByPCode.take(5)

[(u'10036', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2290>),
(u'94104', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2690>),
(u'94304', <pyspark.resultiterable.ResultIterable at 0x7f0d683a2490>),
(None, <pyspark.resultiterable.ResultIterable at 0x7f0d683a25d0>)]

本文转自健哥的数据花园博客园博客，原文链接：http://www.cnblogs.com/gaojian/p/7636004.html，如需转载请自行联系原作者

文章标签：

Python

分布式计算

Spark

关键词：

Python DataFrame

apache spark Python

apache spark rdd

apache spark Dataframe

apache spark dataframe rdd

嗯哼9925

凉凉心.

5月前

Java 数据处理索引

（Pandas）Python做数据处理必选框架之一！（二）：附带案例分析；刨析DataFrame结构和其属性；学会访问具体元素；判断元素是否存在；元素求和、求标准值、方差、去重、删除、排序...

DataFrame结构每一列都属于Series类型，不同列之间数据类型可以不一样，但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列，该列记录了每一行的索引在DataFrame中，若列之间的元素个数不匹配，且使用Series填充时，在DataFrame里空值会显示为NaN；当列之间元素个数不匹配，并且不使用Series填充，会报错。在指定了index 属性显示情况下，会按照index的位置进行排序，默认是 [0,1,2,3,...] 从0索引开始正序排序行。

凉凉心.

412 0 1

赵渝强老师

存储分布式计算并行计算

【赵渝强老师】Spark中的RDD

RDD（弹性分布式数据集）是Spark的核心数据模型，支持分布式并行计算。RDD由分区组成，每个分区由Spark Worker节点处理，具备自动容错、位置感知调度和缓存机制等特性。通过创建RDD，可以指定分区数量，并实现计算函数、依赖关系、分区器和优先位置列表等功能。视频讲解和示例代码进一步详细介绍了RDD的组成和特性。

赵渝强老师

261 0 0

蓝易云

11月前

Python

解决Python报错：DataFrame对象没有concat属性的多种方法（解决方案汇总）

总的来说，解决“DataFrame对象没有concat属性”的错误的关键是理解concat函数应该如何正确使用，以及Pandas库提供了哪些其他的数据连接方法。希望这些方法能帮助你解决问题。记住，编程就像是解谜游戏，每一个错误都是一个谜题，解决它们需要耐心和细心。

蓝易云

518 15 15

赵渝强老师

分布式计算 Spark

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Spark RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指父RDD的每个分区最多被一个子RDD分区使用，如map、filter操作；宽依赖则指父RDD的每个分区被多个子RDD分区使用，如分组和某些join操作。窄依赖任务可在同一阶段完成，而宽依赖因Shuffle的存在需划分不同阶段执行。借助Spark Web Console可查看任务的DAG图及阶段划分。

赵渝强老师

626 15 15

赵渝强老师

存储缓存分布式计算

【赵渝强老师】Spark RDD的缓存机制

Spark RDD通过`persist`或`cache`方法可将计算结果缓存，但并非立即生效，而是在触发action时才缓存到内存中供重用。`cache`方法实际调用了`persist(StorageLevel.MEMORY_ONLY)`。RDD缓存可能因内存不足被删除，建议结合检查点机制保证容错。示例中，读取大文件并多次调用`count`，使用缓存后执行效率显著提升，最后一次计算仅耗时98ms。

赵渝强老师

369 0 0

武子康

分布式计算 Java 大数据

大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化

武子康

221 0 0

大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化

赵渝强老师

SQL JSON 分布式计算

【赵渝强老师】Spark SQL的数据模型：DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先，通过定义case class来创建表结构，然后将CSV文件读入RDD并关联Schema生成DataFrame。其次，使用StructType定义表结构，同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后，直接加载带有格式的数据文件（如JSON），通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

赵渝强老师

381 0 0

武子康

消息中间件分布式计算 Kafka

大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

武子康

246 0 0

武子康

SQL 分布式计算大数据

大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL

武子康

403 0 0

武子康

SQL 分布式计算大数据

大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化

武子康

215 0 0

[Spark][Python][DataFrame][RDD]DataFrame中抽取RDD例子

热门文章

最新文章

相关课程

相关电子书

推荐镜像