Python之pyspark:pyspark的简介、安装、使用方法之详细攻略-阿里云开发者社区

开发者社区> 一个处女座的程序猿> 正文

Python之pyspark:pyspark的简介、安装、使用方法之详细攻略

简介: Python之pyspark:pyspark的简介、安装、使用方法之详细攻略
+关注继续查看

pyspark的简介


       Spark是一个用于大规模数据处理的统一分析引擎。它提供Scala、Java、Python和R中的高级api,以及一个优化的引擎,该引擎支持用于数据分析的通用计算图。它还支持一组丰富的高级工具,包括用于SQL和DataFrames的Spark SQL、用于机器学习的MLlib、用于图形处理的GraphX和用于流处理的结构化流。

       Python Packaging,这个自述文件只包含与PySpark安装的pip相关的基本信息。这个打包目前还处于试验阶段,在未来的版本中可能会有变化(尽管我们会尽力保持兼容性)。使用PySpark需要Spark jar,如果您是从源代码构建它,请参阅“构建Spark”中的构建器说明。

       Spark的Python打包并不打算取代所有其他用例。这个Python打包版本的Spark适合与现有集群交互(无论是Spark independent、YARN还是Mesos)—但是不包含设置自己的独立Spark集群所需的工具。您可以从Apache Spark下载页面下载完整版本的Spark。

       注意:如果您在Spark独立集群中使用它,您必须确保版本(包括次要版本)匹配,否则您可能会遇到奇怪的错误。

官网:https://spark.apache.org/



pyspark的安装


pip install pyspark

image.png

image.png


pyspark的使用方法


from pyspark import SparkContext, SparkConf

from pyspark.sql.session import SparkSession

conf = SparkConf().setAppName('test_parquet')

sc = SparkContext('local', 'test', conf=conf)

spark = SparkSession(sc)

# parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"

parquetFile = r"data.gz.parquet"

df = spark.read.parquet(parquetFile)

print(df.first())


 

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Python,Jupyter Notebook,IPython快速安装教程
Python,IPython,Jupyter Notebook快速安装教程 下一篇:IPython、Notebook、qtconsole使用教程 下一篇Python数据科学安装Numby,pandas,scipy,matpotlib等(IPython安装pandas) 最近深入Python的数据分析方面,为了进一步优化工具决定自己动手安装,可是看到安装
3602 0
Hadoop伪分布式安装Spark
应用场景 搭建部署了hadoop环境后,使用MapReduce来进行计算,速度非常慢,因为MapReduce只是分布式批量计算,用于跑批的场景,并不追求速率,因为它需要频繁读写HDFS,并不能实时反馈结果,这种跑批的场景用的还是比较少的。
1293 0
Python数据分析之anaconda安装和使用
今天开始学习Python数据分析了,说到Python数据分析,大家都会推荐使用anaconda,但作为一个初学者,总是很多疑虑,但在实践中解决了一部分,先和大家分享分享。
941 0
Linux 下安装oracle 数据库的准备
注:不做特别说明,则全由root执行 1.linux检查安装包是否全 rpm -q --queryformat "%{NAME}-%{VERSION}-%{RELEASE} (%{ARCH})\n" binutils \ compat-libstdc++-33...
574 0
Linux下jdk的安装卸载切换
Linux下jdk的安装包:   a).bin包(jdk-6u45-linux-i586-rpm.bin)   b).tar.gz包(jdk-8u144-linux-i586.tar.
927 0
使用setuptools自动安装python模块
setuptools绝对是个好东西,它可以自动的安装模块,只需要你提供给它一个模块名字就可以了,并且自动帮你解决模块的依赖问题。
632 0
Ubuntu下GTK的安装
apt-get install build-essential #这将安装gcc/g++/gdb/make 等基本编程工具apt-get install gnome-core-devel #这将安装 libgtk2.
625 0
+关注
一个处女座的程序猿
国内互联网圈知名博主、人工智能领域优秀创作者,全球最大中文IT社区博客专家、CSDN开发者联盟生态成员、中国开源社区专家、华为云社区专家、51CTO社区专家、Python社区专家等,曾受邀采访和评审十多次。仅在国内的CSDN平台,博客文章浏览量超过2500万,拥有超过57万的粉丝。
1701
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载