备案控制台

开发者社区大数据文章正文

[Spark][Python][RDD][DataFrame]从 RDD 构造 DataFrame 例子

2017-12-19 997

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

[Spark][Python][RDD][DataFrame]从 RDD 构造 DataFrame 例子

from pyspark.sql.types import *

schema = StructType( [ StructField("age",IntegerType(),True),
StructField("name",StringType(),True),
StructField("pcode",StringType(),True) ] )

myrdd = sc.parallelize([(40,"Abram","01601"),(16,"Lucia","87501")])

mydf = sqlContext.createDataFrame(myrdd,schema)

mydf.limit(5).show()

+---+-----+-----+

|age| name|pcode|

+---+-----+-----+

| 40|Abram|01601|

| 16|Lucia|87501|

+---+-----+-----+

文章标签：

Python

分布式计算

Spark

关键词：

Python DataFrame

apache spark Python

Python构造

apache spark rdd

apache spark Dataframe

嗯哼9925

目录

相关文章

凉凉心.

|

17天前

|

Java 数据处理索引

（Pandas）Python做数据处理必选框架之一！（二）：附带案例分析；刨析DataFrame结构和其属性；学会访问具体元素；判断元素是否存在；元素求和、求标准值、方差、去重、删除、排序...

DataFrame结构每一列都属于Series类型，不同列之间数据类型可以不一样，但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列，该列记录了每一行的索引在DataFrame中，若列之间的元素个数不匹配，且使用Series填充时，在DataFrame里空值会显示为NaN；当列之间元素个数不匹配，并且不使用Series填充，会报错。在指定了index 属性显示情况下，会按照index的位置进行排序，默认是 [0,1,2,3,...] 从0索引开始正序排序行。

凉凉心.

119 0 0

蓝易云

|

6月前

|

Python

解决Python报错：DataFrame对象没有concat属性的多种方法（解决方案汇总）

总的来说，解决“DataFrame对象没有concat属性”的错误的关键是理解concat函数应该如何正确使用，以及Pandas库提供了哪些其他的数据连接方法。希望这些方法能帮助你解决问题。记住，编程就像是解谜游戏，每一个错误都是一个谜题，解决它们需要耐心和细心。

蓝易云

306 15 15

武子康

|

SQL 消息中间件分布式计算

大数据-84 Spark 集群 RDD创建 RDD-Transformation操作算子详解(一)

大数据-84 Spark 集群 RDD创建 RDD-Transformation操作算子详解(一)

武子康

154 5 5

武子康

|

分布式计算大数据数据处理

大数据-84 Spark 集群 RDD创建 RDD-Transformation操作算子详解(二)

大数据-84 Spark 集群 RDD创建 RDD-Transformation操作算子详解(二)

武子康

148 4 4

武子康

|

存储缓存分布式计算

大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍

大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍

武子康

160 4 4

赵渝强老师

|

11月前

|

存储分布式计算并行计算

【赵渝强老师】Spark中的RDD

RDD（弹性分布式数据集）是Spark的核心数据模型，支持分布式并行计算。RDD由分区组成，每个分区由Spark Worker节点处理，具备自动容错、位置感知调度和缓存机制等特性。通过创建RDD，可以指定分区数量，并实现计算函数、依赖关系、分区器和优先位置列表等功能。视频讲解和示例代码进一步详细介绍了RDD的组成和特性。

赵渝强老师

201 0 0

赵渝强老师

|

8月前

|

分布式计算 Spark

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Spark RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指父RDD的每个分区最多被一个子RDD分区使用，如map、filter操作；宽依赖则指父RDD的每个分区被多个子RDD分区使用，如分组和某些join操作。窄依赖任务可在同一阶段完成，而宽依赖因Shuffle的存在需划分不同阶段执行。借助Spark Web Console可查看任务的DAG图及阶段划分。

赵渝强老师

341 15 15

赵渝强老师

|

8月前

|

存储缓存分布式计算

【赵渝强老师】Spark RDD的缓存机制

Spark RDD通过`persist`或`cache`方法可将计算结果缓存，但并非立即生效，而是在触发action时才缓存到内存中供重用。`cache`方法实际调用了`persist(StorageLevel.MEMORY_ONLY)`。RDD缓存可能因内存不足被删除，建议结合检查点机制保证容错。示例中，读取大文件并多次调用`count`，使用缓存后执行效率显著提升，最后一次计算仅耗时98ms。

赵渝强老师

195 0 0

【赵渝强老师】Spark RDD的缓存机制

武子康

|

存储缓存分布式计算

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存

武子康

143 4 4

武子康

|

JSON 分布式计算大数据

大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出

大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出

武子康

143 1 1

热门文章

最新文章

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

唯品会item_search - 按关键字搜索 VIP 商品接口深度分析及 Python 实现

Python爬虫技术：从基础到实战的完整教程

5分钟学会用Python爬取知乎热榜：从零开始的实战指南

唯品会 item_get - 获得 VIP 商品详情接口深度分析及 Python 实现

Python神技：用列表推导式让你的代码更优雅

告别 os.path 的繁琐：拥抱 Python 的 pathlib

Python字典：高效数据管理的瑞士军刀

（Python基础）新时代语言！一起学习Python吧！（一）：认识Python、Py解释器作用；编写第一个Python程序；Python中的基本数据结构

Python中的列表推导式：简洁高效的数据处理艺术

Python字符串格式化利器：f-strings入门指南

Python列表推导式：简洁高效的数据处理利器

Python高效字符串格式化：f-strings的魅力

掌握Python装饰器：轻松统计函数执行时间

Python f-strings：让字符串格式化更简洁高效！

Python爬取招标信息并生成可视化分析报告

用 Python 制作简单小游戏教程：手把手教你开发猜数字游戏

Python3.14正式支持Free Threaded版本！

Python web Django快速入门手册全栈版，共2590字，短小精悍

相关课程

更多

Python语言基础 - 语法入门

Python语言基础 - 列表、元组、字典、集合

Python语言基础 - 函数、面向对象、异常处理

Python网络编程

Python Web 框架 Django 快速入门

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

推荐镜像

更多

python-release

下一篇

阿里云oss简介和如何对接使用