PySpark系列教程--1.起航

简介: 从零开始PySpark系列

PySpark系列教程--1.起航

搭建环境

本次使用的环境版本为hadoop3.2.1和spark3.0.2

1. 安装JDK

推荐安装jdk8

2. 安装hadoop

  1. 下载hadoop,推荐使用国内镜像
  2. 解压到本地,路径不能包含空格!
  3. 配置环境变量HADOOP_HOME,并在PATH中增加%HADOOP_HOME%\bin
  4. 在cmd中测试安装是否成功

在这里插入图片描述

3. 安装spark

  1. 下载Spark:spark-3.0.2-bin-hadoop3.2.tgz,推荐使用国内镜像
  2. 解压到指定路径,路径不能包含空格!
  3. 配置环境变量,配置SPARK_HOME,并且在PATH中添加%SPARK_HOME\bin%
  4. 在命令行测试是否安装成功

在这里插入图片描述

4. 安装python

  1. 推荐安装python3,这里使用python3.9

5. 下载winutils

  1. 下载地址:https://codechina.csdn.net/mirrors/cdarlint/winutils
  2. 选择需要的版本,将相关文件复制到本地的%HADOOP_HOME%\bin下面

6. 安装pyspark、findspark

  1. 使用pip安装pyspark和findspark
pip install pyspark findspark

7. 测试第一个pyspark程序

import findspark
findspark.init()
from pyspark import SparkContext

sc = SparkContext("local","first app")
data = sc.textFile("../datas/test.txt")
count = data.count()
print(count)

在这里插入图片描述

8. 配置pyspark访问hive

  1. 将被访问的hadoop集群中的相关配置文件复制到本地hadoop集群中,具体文件是$HADOOP_HOME/etc/hadoop/下的yarn-site.xml、core-site.xml、hdfs-site.xml、hadoop-env.sh、mapred-site.xml、workers
  2. 将$HADOOP_HOME/etc/hadoop/下的相关文件复制到本地%SPARK_HOME%\conf下,具体文件有yarn-site.xml、core-site.xml和hdfs-site.xml

9. 测试windows下的pyspark访问hive

  1. 测试程序
import findspark
findspark.init()

from pyspark.sql import SparkSession
import warnings
warnings.filterwarnings('ignore')

spark = SparkSession.builder.master("local[*]")\
    .appName("test").enableHiveSupport().getOrCreate()
read_df=spark.sql("select * from test1")
read_df.show()
  1. 测试结果

在这里插入图片描述

相关文章
|
5月前
|
SQL 分布式计算 Spark
Spark 教程系列
Spark 教程系列
29 0
|
6月前
|
分布式计算 Hadoop 大数据
178 Spark入门
178 Spark入门
31 0
|
5月前
|
分布式计算 资源调度 Java
Python大数据之PySpark(四)SparkBase&Core
Python大数据之PySpark(四)SparkBase&Core
38 0
|
5月前
|
SQL 分布式计算 数据处理
[AIGC] Apache Spark 简介
[AIGC] Apache Spark 简介
|
分布式计算 Apache Spark
《# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】》电子版地址
# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】
87 0
《# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】》电子版地址
|
SQL 机器学习/深度学习 分布式计算
BigData之Spark:Spark计算引擎的简介、下载、经典案例之详细攻略
BigData之Spark:Spark计算引擎的简介、下载、经典案例之详细攻略
|
存储 分布式计算 Java
大数据入门与实战-PySpark的使用教程
大数据入门与实战-PySpark的使用教程
1052 0
大数据入门与实战-PySpark的使用教程
|
分布式计算 Apache Spark
|
SQL 存储 分布式计算
「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配
资源是影响 Spark 应用执行效率的一个重要因素。Spark 应用中真正执行 task 的组件是 Executor,可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量。在运行过程中,无论 Executor上是否有 task 在执行,都会被一直占有直到此 Spark 应用结束。
568 0
「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配
Spark入门介绍
前言 Spark自从2014年1.2版本发布以来,已成为大数据计算的通用组件。网上介绍Spark的资源也非常多,但是不利于用户快速入门,所以本文主要通从用户的角度来介绍Spark,让用户能快速的认识Spark,知道Spark是什么、能做什么、怎么去做。
2903 0