备案控制台

开发者社区大数据文章正文

python spark 求解最大最小平均

2017-11-07 1013

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

rdd = sc.parallelizeDoubles(testData);

Now we’ll calculate the mean of our dataset.

1	LOGGER.info("Mean: " + rdd.mean());

There are similar methods for other statistics operation such as max, standard deviation, …etc.

Every time one of this method is invoked , Spark performs the operation on the entire RDD data. If more than one operations performed, it will repeat again and again which is very inefficient. To solve this, Spark provides “StatCounter” class which executes once and provides results of all basic statistics operations in the same time.

1	StatCounter statCounter = rdd.stats();

Now results can be accessed as follows,

1

2

3

4

5

6

7

LOGGER.info("Count: " + statCounter.count());

LOGGER.info("Min: " + statCounter.min());

LOGGER.info("Max: " + statCounter.max());

LOGGER.info("Sum: " + statCounter.sum());

LOGGER.info("Mean: " + statCounter.mean());

LOGGER.info("Variance: " + statCounter.variance());

LOGGER.info("Stdev: " + statCounter.stdev());

摘自：http://www.sparkexpert.com/tag/rdd/

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/7154042.html，如需转载请自行联系原作者

文章标签：

Python

分布式计算

Spark

关键词：

Python spark

python apache spark

apache spark Python

Python求解

Python spark求解最大最小

桃子红了呐

目录

相关文章

土木林森

|

5月前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

土木林森

688 1 2

叫做饺子

|

3月前

|

分布式计算 Apache Spark

Python与Apache Spark：实时AI的大数据引擎——Spark Streaming实战

7月更文挑战第9天

叫做饺子

95 0 0

wishCoding

|

5月前

|

机器学习/深度学习分布式计算数据处理

在Python中应用Spark框架

在Python中应用Spark框架

wishCoding

42 1 1

肥猪lele01

|

4月前

|

分布式计算 Shell 调度

看看airflow怎样调度python写的spark任务吧

看看airflow怎样调度python写的spark任务吧

肥猪lele01

46 0 0

拓端数据部落

|

5月前

|

SQL 分布式计算数据可视化

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

拓端数据部落

70 4 4

拓端数据部落

|

5月前

|

新零售分布式计算数据可视化

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

拓端数据部落

600 0 0

土木林森

|

5月前

|

分布式计算 Hadoop 大数据

什么是 Hadoop 和 Spark？在 Python 中如何使用它们进行大数据处理？

【1月更文挑战第11天】

土木林森

211 0 0

树空#

|

4天前

|

数据挖掘索引 Python

Python数据挖掘编程基础3

字典在数学上是一个映射，类似列表但使用自定义键而非数字索引，键在整个字典中必须唯一。可以通过直接赋值、`dict`函数或`dict.fromkeys`创建字典，并通过键访问元素。集合是一种不重复且无序的数据结构，可通过花括号或`set`函数创建，支持并集、交集、差集和对称差集等运算。

树空#

14 9 9

历年考试不作弊

|

3天前

|

存储开发者 Python

探索Python编程的奥秘

【9月更文挑战第29天】本文将带你走进Python的世界，通过深入浅出的方式，解析Python编程的基本概念和核心特性。我们将一起探讨变量、数据类型、控制结构、函数等基础知识，并通过实际代码示例，让你更好地理解和掌握Python编程。无论你是编程新手，还是有一定基础的开发者，都能在这篇文章中找到新的启示和收获。让我们一起探索Python编程的奥秘，开启编程之旅吧！

历年考试不作弊

8 1 1

y53t27ieobnpw

|

4天前

|

Python

Python编程的循环结构小示例（二）

Python编程的循环结构小示例（二）

y53t27ieobnpw

8 1 1

热门文章

最新文章

Spark Core概念学习系列之Spark Core（十四）

重磅解读：基于Occlum和BigDL构建端到端的安全分布式Spark大数据分析方案

附录A Spark2.1核心工具类Utils

Spark-ML-01-小试spark分析离线商品信息

Spark-神奇的共享变量

跟我一起数据挖掘（22）——spark入门

Spark shuffle详细过程

【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释超详细）

[Spark][Python]Spark Python 索引页

Spark Job的提交与task本地化分析（源码阅读八）

「多线程大杀器」Python并发编程利器：ThreadPoolExecutor，让你一次性轻松开启多个线程，秒杀大量任务！

深入理解Python数据结构中的深浅拷贝

深入理解Python中的try-except语句，避免代码崩溃的噩梦

python编程简介（一）

python操作列表方法（二）

python操作列表方法（一）

python测试代码（三）

python测试代码（二）

python测试代码（一）

python函数用法（五）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

Python入门 2020年版

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

Python新手入门

Python入门

Python选择及循环结构

Python新手入门（Anolis OS）

Python网络通信程序典型应用

云端Python及基本操作

推荐镜像

更多

python-release

nodejs-release

centos-stream

下一篇

无影云桌面