windows中pyspark的配置

简介: windows中pyspark的配置

1. Windows 安装配置 PySpark 开发环境(详细步骤+原理分析)

https://cloud.tencent.com/developer/article/1701582

使用 python api 编写 pyspark 代码提交运行时,为了不破坏 spark 原有的运行架构,会将写好的代码首先在 python 解析器中运行(cpython),Spark 代码归根结底是运行在 JVM 中的,这里 python 借助 Py4j 实现 Python 和 Java 的交互,即通过 Py4j 将 pyspark 代码“解析”到 JVM 中去运行。例如,在 pyspark 代码中实例化一个 SparkContext 对象,那么通过 py4j 最终在 JVM 中会创建 scala 的 SparkContext 对象及后期对象的调用、在 JVM 中数据处理消息的日志会返回到 python 进程中、如果在代码中会回收大量结果数据到 Driver 端中,也会通过 socket 通信返回到 python 进程中。这样在python进程和JVM进程之间就有大量通信。

①Windows 配置 python 环境变量

②Windows 配置 spark 环境变量

③python 环境中安装 py4j 模块(python 调用 java API 的中间通信模块)

进入python安装目录\Scripts使用pip install py4j

验证py4j是否安装成功:python >>>import py4j回车

④安装PySpark模块

使用pip安装pyspark。pip install pyspark 会安装最新的版本的pyspark。

⑤pyspark验证

⑥WordCount 测试环境是否配置成功

2. Windows系统下解压".tar"文件出错,提示:无法创建符号链接,可能需要以管理器身份运行winrar,参考:

https://blog.csdn.net/ruangaoyan/article/details/100154959?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1.pc_relevant_default&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-1.pc_relevant_default&utm_relevant_index=2

原因:用户管理员权限(必须管理权权限,否则无效)

通过命令行解决:以管理员身份运行cmd,进入待解压文件目录下

start winrar x -y hadoop-3.2.3.tar

3.java环境不能有空格

①参考:https://blog.csdn.net/u012175183/article/details/117730692

添加D:\Program Files的链接D:\ProgramFiles

mklink/J D:\ProgramFiles “D:\Program Files”

// 快捷方式路径 原路径

//路径名有空格时需要加双引号 “有空格 的路径”

②参考:https://blog.csdn.net/qq_35535690/article/details/81976032

使用编辑器打开E:\Hadoop2.7.7\hadoop-2.7.7\etc\hadoop\hadoop-env.cmd

修改JAVA_HOME的路径

把set JAVA_HOME改为jdk的位置

4. windows环境下paspark开发环境报错

https://blog.csdn.net/weixin_44285445/article/details/108710043

①下载所安装的 Spark 版本对应的 Hadoop 版本的压缩包

②参考https://zhuanlan.zhihu.com/p/346219061

[问题解决篇-32] hadoop 各个版本的hadoop.dll 下载路径

C:\Windows\System32下缺少hadoop.dll,把这个文件拷贝到C:\Windows\System32下面即可。

https://github.com/cdarlint/winutils下载对应的hadoop.dll和winutils.ex文件

③将hadoop-2.6.5\bin 下hadoop.dll 文件winutils.exe 文件拷贝到 C:\Windows\System32④配置hadoop环境,修改path变量

HADOOP_HOME:D:\Programs\hadoop-3.2.3

%HADOOP_HOME%\bin

⑤测试 hadoop version和spark

5. spark报错:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

参考:https://blog.csdn.net/dkl12/article/details/118767618

6. spark报错:WARN util.Utils: Service ‘SparkUI’ could not bind on port 4040. Attempting port 4041.4042等错误

参考:https://www.cnblogs.com/angelasp/p/13274455.html

解决:关闭进程端口

7.Python版本与spark版本不一致,报错Exception: Python in worker has different version 3.10 than that in driver 3.7

参考:https://blog.csdn.net/lyw5200/article/details/111316602

8. Spark编程笔记(4)-RDD数据读写

参考:https://zhuanlan.zhihu.com/p/103024687

目录
相关文章
|
8月前
|
Windows
Windows无法连接到打印机,请检查打印机名并重试 - 配置Windows 共享打印机出错;
WIN7共享打印机无法被WIN11连接,出现错误代码0x0000011b或0x00000709,可能是系统版本不兼容所致。本文提供多个轻量级修复工具,无需安装,双击即用,专为解决此类小问题设计,操作简单,适合普通用户快速修复打印机连接异常。
1137 0
|
9月前
|
网络安全 Windows
Windows IIS 10如何配置自签名SSL并实现自动跳转
本文记录了IIS配置自签名证书及HTTPS跳转的注意事项。包括解决443端口占用问题、URL Rewrite插件安装与配置、web.config修改方法,以及避免因旧教程导致的配置错误。
Windows IIS 10如何配置自签名SSL并实现自动跳转
|
9月前
|
C语言 图形学 Windows
Windows下安装和配置GTK4(基于CLion)
本文介绍了作者选择GTK作为C语言图形库的原因,包括代码简洁、控件丰富和界面美观,并分享了在Windows环境下通过MSYS2安装GTK4及在CLion中配置开发环境的详细步骤。
1041 0
|
9月前
|
Windows
Windows下版本控制器(SVN)-验证是否安装成功+配置版本库+启动服务器端程序
Windows下版本控制器(SVN)-验证是否安装成功+配置版本库+启动服务器端程序
269 2
|
安全 Windows
“由于启动计算机时出现了页面文件配置问题,Windows在你的计算机上创建了一个临时页面文件。。。”的问题解决
本文主要介绍了因清理电脑垃圾文件时误删虚拟内存导致的Windows页面文件配置问题,并提供了详细的解决步骤。问题表现为开机后出现临时页面文件创建的提示弹窗。解决方法包括通过控制面板或快捷键进入高级系统设置,进而调整虚拟内存设置:进入性能选项中的虚拟内存栏,选择自动管理所有驱动器的分页文件大小,最后确认并重启计算机以恢复正常运行。
9171 5
“由于启动计算机时出现了页面文件配置问题,Windows在你的计算机上创建了一个临时页面文件。。。”的问题解决
|
Windows
Windows下版本控制器(SVN)- 配置版本库
Windows下版本控制器(SVN)- 配置版本库
151 0
|
10月前
|
安全 Shell 开发工具
Windows下使用git配置gitee远程仓库
就在前几天因为一些原因,我的电脑重装了系统,然后再重新配置git的环境的时候就遇到了一些小问题。所以我决定自己写一篇文章,以便以后再配置git时,避免一些错误操作,而导致全网搜方法,找对的文章去找对应的解决方法。下面为了演示方便就拿gitee来演示,不拿GitHub了写文章了。
507 0
|
数据库连接 测试技术 Windows
【YashanDB知识库】windows配置ODBC跟踪日志, 使用日志定位问题
【YashanDB知识库】windows配置ODBC跟踪日志, 使用日志定位问题
|
Windows
Windows系统云服务器配置多用户登录
本教程介绍了在Windows云服务器上配置远程桌面服务的详细步骤,包括安装桌面会话主机和远程桌面授权、允许多用户远程连接以及配置新用户并加入远程桌面用户组。通过添加角色和功能、设置组策略以及管理用户权限,实现多用户同时登录和远程访问。按照指引操作,可顺利完成服务器的远程访问配置,提升管理和使用效率。
1671 0
|
存储 负载均衡 Java
如何配置Windows主机MPIO多路径访问存储系统
Windows主机多路径(MPIO)是一种技术,用于在客户端计算机上配置多个路径到存储设备,以提高数据访问的可靠性和性能。本文以Windows2012 R2版本为例介绍如何在客户端主机和存储系统配置多路径访问。
967 13
如何配置Windows主机MPIO多路径访问存储系统