PySpark系列教程--1.起航
搭建环境
本次使用的环境版本为hadoop3.2.1和spark3.0.2
1. 安装JDK
推荐安装jdk8
2. 安装hadoop
- 下载hadoop,推荐使用国内镜像
- 解压到本地,路径不能包含空格!
- 配置环境变量
HADOOP_HOME
,并在PATH
中增加%HADOOP_HOME%\bin
- 在cmd中测试安装是否成功
3. 安装spark
- 下载Spark:spark-3.0.2-bin-hadoop3.2.tgz,推荐使用国内镜像
- 解压到指定路径,路径不能包含空格!
- 配置环境变量,配置
SPARK_HOME
,并且在PATH
中添加%SPARK_HOME\bin%
- 在命令行测试是否安装成功
4. 安装python
推荐安装python3,这里使用python3.9
5. 下载winutils
选择需要的版本,将相关文件复制到本地的%HADOOP_HOME%\bin下面
6. 安装pyspark、findspark
- 使用pip安装pyspark和findspark
pip install pyspark findspark
7. 测试第一个pyspark程序
```python
import findspark
findspark.init()
from pyspark import SparkContext
sc = SparkContext("local","first app")
data = sc.textFile("../datas/test.txt")
count = data.count()
print(count)
![在这里插入图片描述](https://ucc.alicdn.com/images/user-upload-01/20210501203917350.png)
# 8. 配置pyspark访问hive
1. 将被访问的hadoop集群中的相关配置文件复制到本地hadoop集群中,具体文件是$HADOOP_HOME/etc/hadoop/下的`yarn-site.xml、core-site.xml、hdfs-site.xml、hadoop-env.sh、mapred-site.xml、workers`
2. 将$HADOOP_HOME/etc/hadoop/下的相关文件复制到本地%SPARK_HOME%\conf下,具体文件有`yarn-site.xml、core-site.xml和hdfs-site.xml`
# 9. 测试windows下的pyspark访问hive
1. 测试程序
```python
import findspark
findspark.init()
from pyspark.sql import SparkSession
import warnings
warnings.filterwarnings('ignore')
spark = SparkSession.builder.master("local[*]")\
.appName("test").enableHiveSupport().getOrCreate()
read_df=spark.sql("select * from test1")
read_df.show()
- 测试结果