文档备案控制台

开发者社区问答正文

怎么用python写spark

怎么用python写spark

展开

收起

保持可爱mmm 2019-12-11 14:05:50 1641 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

bigbigtree

通过pyspark库操作spark，参见：https://spark.apache.org/docs/latest/api/python/index.html

2020-03-19 20:10:49

赞同展开评论
保持可爱mmm
为什么要使用Python来写Spark

Python写spark我认为唯一的理由就是：你要做数据挖掘，AI相关的工作。因为很多做数挖的他们的基础语言都是python，他们如果重新学scala比较耗时，而且，python他的强大类库是他的优势，很多算法库只有python有。

Win本地编写代码调试

编辑器：PyCharm

Spark：1.6

Python：2.7

Win环境准备

Python的安装

解压python包，在环境变量里面配上bin的路径

Spark的安装

下载spark的bin文件，解压即可，在环境变量配置SPARK_HOME

要可以通过编辑器来安装，如pycharm，查找pyspark库安装即可

Hadoop安装

安装hadoop环境。在win下面需要winutils.exe；在环境里面配置HADOOP_HOME 即可。

代码示例

-- coding: utf-8 --

from future import print_function

from pyspark import *

import os

print(os.environ['SPARK_HOME'])

print(os.environ['HADOOP_HOME'])

if name == 'main':
```
sc = SparkContext("local[8]")

rdd = sc.parallelize("hello Pyspark world".split(" "))

counts = rdd \

    .flatMap(lambda line: line) \

    .map(lambda word: (word, 1)) \

    .reduceByKey(lambda a, b: a + b) \

    .foreach(print)

sc.stop
```
问题：

from pyspark import *

找不到pyspark。那你需要把spark的bin包下面的python的所有都拷贝到（可能需要解压py4j）

%PYTHON%\Lib\site-packages下面去。这样，你的编辑器才能找到。

或者：

配置你的编辑器的环境变量：

PYTHONPATH=F:\home\spark-1.6.0-bin-hadoop2.6\python;F:\python2.7\Lib\site-packages

使用spark-submit提交时用到其他类库 –py-files xxxx/xxxx.zip,xxxx.py。问题来源于python学习网
2019-12-11 14:06:17

赞同展开评论

问答分类：

分布式计算 Spark Python

问答标签：

apache spark Python Python spark python apache spark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

DataWorks如何创建ODPS Spark节点创建Python资源？

217

2

0

如何在不依赖Spark的情况下，使用Python安装并读取Delta Lake表？

147

1

0

dataworks用python写odps spark任务有任何办法引用到额外的jar包吗？

242

13

0

ADB MySQL湖仓版提交python任务到spark集群时，如何打包环境？

188

0

0

DataWorks中maxcomputer如何更换spark节点的Python版本？

234

4

0

DataWorks创建ODPS Spark节点创建Python资源？

224

4

0

DataWorks如何创建ODPS Spark节点创建Python资源？

217

1

0

新建了一个FILE资源，如何通过spark或者python来读取FILE资源里的内容？

315

1

0

我用最基础的Hello world用例测了一下，发现python的函数执行速度比java快很多【py

1343

2

0

请问Python写的函数可以在中台调用吗? 数据中台为什么不支持pandas包?

1143

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

notebook启动安全验证一直失败

vllm部署模型，参数如何指定

怎么在cursor上使用mcp来采集网页数据，听说brightdata-mcp适合做爬虫，好用吗？

请教一下，我4张a6000可以部署什么好点的模型

宜搭如何将流程表单的子表单中选择的人员，加入审批流程？

相关文章

【2026最新】VSCode下载、安装和使用保姆级教程（附安装包+图文步骤）

NPP 苔原：阿拉斯加 Toolik 湖，1982 年，R1

《PyPy超越CPython的核心技术架构解析》

《Python复杂结构静态分析秘籍：递归类型注解的深度实践指南》

4万起金融钓鱼攻击席卷全球：一封“税务退款”邮件，可能掏空你的账户

还有其他疑问?