198 Spark DataFrames创建

简介: 198 Spark DataFrames创建

在Spark SQL中SQLContext是创建DataFrames和执行SQL的入口,在spark-1.5.2中已经内置了一个sqlContext。

1.在本地创建一个文件,有三列,分别是id、name、age,用空格分隔,然后上传到hdfs上

hdfs dfs -put person.txt /

2.在spark shell执行下面命令,读取数据,将每一行的数据使用列分隔符分割

val lineRDD = sc.textFile("hdfs://node1.itcast.cn:9000/person.txt").map(_.split(" "))

3.定义case class(相当于表的schema)

case class Person(id:Int, name:String, age:Int)

4.将RDD和case class关联

val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))

5.将RDD转换成DataFrame

val personDF = personRDD.toDF

6.对DataFrame进行处理

personDF.show

目录
相关文章
|
7月前
|
SQL 分布式计算 数据挖掘
197 Spark DataFrames概述
197 Spark DataFrames概述
45 0
|
SQL 分布式计算 Java
【Spark】Spark SQL, DataFrames and Datasets Guide(翻译文,持续更新)
本文主要是翻译Spark官网Spark SQL programming guide 。只能保证大概意思,尽量保证细节。英文水平有限,如果有错误的地方请指正,轻喷。目录导航在右上角 Spark SQL、DataFrames 和 Datasets 指南 概述   Spark SQL 是一个结构化数据处理的 Spark 模块 。
2259 0
|
分布式计算 大数据 流计算
【Spark Summit East 2017】为Walmart Search学习使用Streaming和DataFrames
本讲义出自Nirmal Sharma与Yan Zheng在Spark Summit East 2017上的演讲,主要介绍了Walmart使用Spark Streaming和DataFrames构建的搜索产品的情况,目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新,并分享了仅依靠Spark Data Frames建立的可伸缩的异常检测框架,该框架能够用于检测异常搜索信息。
1697 0
|
分布式计算 Spark MaxCompute
【Spark Summit EU 2016】在数据仓库中引入Dataframes+Parquet
本讲义出自Sol Ackerman与Franklyn D'souza在Spark Summit EU上的演讲,在已存在的数据仓库中使用Dataframes+Parquet的经验方法,实现了在保证原有代码的情况下,引进Dataframes+Parquet,并且重写比较慢的工作作为Dataframes的管道,用Spark对从输入端流入的数据进行处理并输出。
1607 0
|
SQL 分布式计算
SparkSQL(Spark-1.4.0)实战系列(二)——DataFrames进阶
本节主要内容如下 DataFrame与RDD的互操作实战 不同数据源构建DataFrame实战 DataFrame与RDD的互操作实战 1 采用反映机制进行Schema类型推导(RDD到DataFrame的转换) SparkSQL支持RDD到DataFrame的自动转换,实现方法是通过Case类定义表的Schema,Spark会通过反射机制读取case class的
2738 0
|
SQL 分布式计算 API
SparkSQL(Spark-1.4.0)实战系列(一)——DataFrames基础
主要内容 本教程中所有例子跑在Spark-1.4.0集群上 DataFrames简介 DataFrame基本操作实战 DataFrames简介 本文部分内容译自https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html
3439 0