PySpark系列教程--1.起航

简介: 从零开始PySpark系列

PySpark系列教程--1.起航

搭建环境

本次使用的环境版本为hadoop3.2.1和spark3.0.2

1. 安装JDK

推荐安装jdk8

2. 安装hadoop

  1. 下载hadoop,推荐使用国内镜像
  2. 解压到本地,路径不能包含空格!
  3. 配置环境变量HADOOP_HOME,并在PATH中增加%HADOOP_HOME%\bin
  4. 在cmd中测试安装是否成功
    在这里插入图片描述

    3. 安装spark

  5. 下载Spark:spark-3.0.2-bin-hadoop3.2.tgz,推荐使用国内镜像
  6. 解压到指定路径,路径不能包含空格!
  7. 配置环境变量,配置SPARK_HOME,并且在PATH中添加%SPARK_HOME\bin%
  8. 在命令行测试是否安装成功
    在这里插入图片描述

4. 安装python

  1. 推荐安装python3,这里使用python3.9

    5. 下载winutils

  2. 选择需要的版本,将相关文件复制到本地的%HADOOP_HOME%\bin下面

    6. 安装pyspark、findspark

  3. 使用pip安装pyspark和findspark
    pip install pyspark findspark
    

    7. 测试第一个pyspark程序

    ```python
    import findspark
    findspark.init()
    from pyspark import SparkContext

sc = SparkContext("local","first app")
data = sc.textFile("../datas/test.txt")
count = data.count()
print(count)

![在这里插入图片描述](https://ucc.alicdn.com/images/user-upload-01/20210501203917350.png)
# 8. 配置pyspark访问hive
1. 将被访问的hadoop集群中的相关配置文件复制到本地hadoop集群中,具体文件是$HADOOP_HOME/etc/hadoop/下的`yarn-site.xml、core-site.xml、hdfs-site.xml、hadoop-env.sh、mapred-site.xml、workers`
2. 将$HADOOP_HOME/etc/hadoop/下的相关文件复制到本地%SPARK_HOME%\conf下,具体文件有`yarn-site.xml、core-site.xml和hdfs-site.xml`

# 9. 测试windows下的pyspark访问hive
1. 测试程序
```python
import findspark
findspark.init()

from pyspark.sql import SparkSession
import warnings
warnings.filterwarnings('ignore')

spark = SparkSession.builder.master("local[*]")\
    .appName("test").enableHiveSupport().getOrCreate()
read_df=spark.sql("select * from test1")
read_df.show()
  1. 测试结果
    在这里插入图片描述
相关文章
|
7月前
|
SQL 分布式计算 Spark
Spark 教程系列
Spark 教程系列
61 0
|
3月前
|
分布式计算 Shell Scala
学习使用Spark
学习使用Spark
109 3
|
4月前
|
分布式计算 Shell Scala
如何开始学习使用Spark?
【8月更文挑战第31天】如何开始学习使用Spark?
104 2
|
分布式计算 Hadoop 大数据
178 Spark入门
178 Spark入门
63 0
|
SQL 机器学习/深度学习 分布式计算
BigData之Spark:Spark计算引擎的简介、下载、经典案例之详细攻略
BigData之Spark:Spark计算引擎的简介、下载、经典案例之详细攻略
|
SQL 存储 分布式计算
「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配
资源是影响 Spark 应用执行效率的一个重要因素。Spark 应用中真正执行 task 的组件是 Executor,可以通过spark.executor.instances 指定 Spark 应用的 Executor 的数量。在运行过程中,无论 Executor上是否有 task 在执行,都会被一直占有直到此 Spark 应用结束。
789 0
「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配
|
分布式计算 Apache Spark
|
SQL 分布式计算 Scala
[转载] 是时候学习真正的 spark 技术了
spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spark streaming 维护的也不积极了, 我们基于 spark 来构建大数据计算任务,重心也要...
|
云计算
Spark入门介绍
前言 Spark自从2014年1.2版本发布以来,已成为大数据计算的通用组件。网上介绍Spark的资源也非常多,但是不利于用户快速入门,所以本文主要通从用户的角度来介绍Spark,让用户能快速的认识Spark,知道Spark是什么、能做什么、怎么去做。
2977 0
|
分布式计算 Spark Scala
入门 spark
CentOS项目组织结构内容 image.png 启动 Hadoop
943 0