开发者社区大数据文章正文

198 Spark DataFrames创建

2023-11-01 65

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 198 Spark DataFrames创建

在Spark SQL中SQLContext是创建DataFrames和执行SQL的入口，在spark-1.5.2中已经内置了一个sqlContext。

1.在本地创建一个文件，有三列，分别是id、name、age，用空格分隔，然后上传到hdfs上

hdfs dfs -put person.txt /

2.在spark shell执行下面命令，读取数据，将每一行的数据使用列分隔符分割

val lineRDD = sc.textFile("hdfs://node1.itcast.cn:9000/person.txt").map(_.split(" "))

3.定义case class（相当于表的schema）

case class Person(id:Int, name:String, age:Int)

4.将RDD和case class关联

val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))

5.将RDD转换成DataFrame

val personDF = personRDD.toDF

6.对DataFrame进行处理

personDF.show

文章标签：

分布式计算

Spark

SQL

Shell

关键词：

apache spark DataFrames

阿甘兄

SQL 分布式计算数据挖掘

197 Spark DataFrames概述

阿甘兄

83 0 0

跑呀跑呀

SQL 分布式计算 Java

【Spark】Spark SQL, DataFrames and Datasets Guide(翻译文，持续更新)

本文主要是翻译Spark官网Spark SQL programming guide 。只能保证大概意思，尽量保证细节。英文水平有限，如果有错误的地方请指正，轻喷。目录导航在右上角 Spark SQL、DataFrames 和 Datasets 指南概述　　Spark SQL 是一个结构化数据处理的 Spark 模块。

跑呀跑呀

2289 0 0

橘子红了呐

分布式计算 C++ Spark

Spark RDDs vs DataFrames vs SparkSQL

橘子红了呐

1563 0 0

青衫无名

SQL 分布式计算 API

《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南（四）

青衫无名

4989 0 0

小猫吃鱼569

分布式计算大数据流计算

【Spark Summit East 2017】为Walmart Search学习使用Streaming和DataFrames

本讲义出自Nirmal Sharma与Yan Zheng在Spark Summit East 2017上的演讲，主要介绍了Walmart使用Spark Streaming和DataFrames构建的搜索产品的情况，目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新，并分享了仅依靠Spark Data Frames建立的可伸缩的异常检测框架，该框架能够用于检测异常搜索信息。

小猫吃鱼569

1718 0 0

小猫吃鱼569

分布式计算 Spark MaxCompute

【Spark Summit EU 2016】在数据仓库中引入Dataframes+Parquet

本讲义出自Sol Ackerman与Franklyn D'souza在Spark Summit EU上的演讲，在已存在的数据仓库中使用Dataframes+Parquet的经验方法，实现了在保证原有代码的情况下，引进Dataframes+Parquet，并且重写比较慢的工作作为Dataframes的管道，用Spark对从输入端流入的数据进行处理并输出。

小猫吃鱼569

1625 0 0

周志湖

SQL 分布式计算

SparkSQL（Spark-1.4.0)实战系列（二）——DataFrames进阶

本节主要内容如下 DataFrame与RDD的互操作实战不同数据源构建DataFrame实战 DataFrame与RDD的互操作实战 1 采用反映机制进行Schema类型推导（RDD到DataFrame的转换） SparkSQL支持RDD到DataFrame的自动转换，实现方法是通过Case类定义表的Schema，Spark会通过反射机制读取case class的

周志湖

2756 0 0

周志湖

SQL 分布式计算 API

SparkSQL（Spark-1.4.0)实战系列（一）——DataFrames基础

主要内容本教程中所有例子跑在Spark-1.4.0集群上 DataFrames简介 DataFrame基本操作实战 DataFrames简介本文部分内容译自https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html

周志湖

3453 0 0

郑小健

16天前

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

48 2 2

武子康

1月前

存储分布式计算算法

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

武子康

60 0 0

198 Spark DataFrames创建

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

198 Spark DataFrames创建

热门文章

最新文章

相关课程

相关电子书