PySpark系列教程--1.起航

2021-09-09 586

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 从零开始PySpark系列

PySpark系列教程--1.起航

搭建环境

本次使用的环境版本为hadoop3.2.1和spark3.0.2

1. 安装JDK

推荐安装jdk8

2. 安装hadoop

下载hadoop,推荐使用国内镜像
解压到本地，路径不能包含空格！
配置环境变量HADOOP_HOME，并在PATH中增加%HADOOP_HOME%\bin
在cmd中测试安装是否成功
3. 安装spark
下载Spark：spark-3.0.2-bin-hadoop3.2.tgz，推荐使用国内镜像
解压到指定路径，路径不能包含空格！
配置环境变量，配置SPARK_HOME，并且在PATH中添加%SPARK_HOME\bin%
在命令行测试是否安装成功

4. 安装python

推荐安装python3，这里使用python3.9

5. 下载winutils
选择需要的版本,将相关文件复制到本地的%HADOOP_HOME%\bin下面

6. 安装pyspark、findspark
使用pip安装pyspark和findspark
```
pip install pyspark findspark
```
7. 测试第一个pyspark程序
```python
import findspark
findspark.init()
from pyspark import SparkContext

sc = SparkContext("local","first app")
data = sc.textFile("../datas/test.txt")
count = data.count()
print(count)

![在这里插入图片描述](https://ucc.alicdn.com/images/user-upload-01/20210501203917350.png)
# 8. 配置pyspark访问hive
1. 将被访问的hadoop集群中的相关配置文件复制到本地hadoop集群中，具体文件是$HADOOP_HOME/etc/hadoop/下的`yarn-site.xml、core-site.xml、hdfs-site.xml、hadoop-env.sh、mapred-site.xml、workers`
2. 将$HADOOP_HOME/etc/hadoop/下的相关文件复制到本地%SPARK_HOME%\conf下，具体文件有`yarn-site.xml、core-site.xml和hdfs-site.xml`

# 9. 测试windows下的pyspark访问hive
1. 测试程序
```python
import findspark
findspark.init()

from pyspark.sql import SparkSession
import warnings
warnings.filterwarnings('ignore')

spark = SparkSession.builder.master("local[*]")\
    .appName("test").enableHiveSupport().getOrCreate()
read_df=spark.sql("select * from test1")
read_df.show()

测试结果

PySpark系列教程--1.起航

搭建环境

1. 安装JDK

2. 安装hadoop

3. 安装spark

4. 安装python

5. 下载winutils

6. 安装pyspark、findspark

7. 测试第一个pyspark程序

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

PySpark系列教程--1.起航

搭建环境

1. 安装JDK

2. 安装hadoop

3. 安装spark

4. 安装python

5. 下载winutils

6. 安装pyspark、findspark

7. 测试第一个pyspark程序

热门文章

最新文章

相关课程

相关电子书