PySpark-如何使用Pyspark计算每个字段的最小值,最大值?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

PySpark-如何使用Pyspark计算每个字段的最小值,最大值?

2018-12-12 11:18:44 5028 1

我试图找到sql语句产生的每个字段的最小值,最大值,并将其写入csv文件。我试图以下面的方式得到结果。能否请你帮忙。我已经用python编写了,但现在尝试将其转换为pyspark直接在hadoop集群中运行

from pyspark.sql.functions import max, min, mean, stddev
from pyspark import SparkContext
sc =SparkContext()
from pyspark.sql import HiveContext
hive_context = HiveContext(sc)

bank = hive_context.table("cip_utilities.file_upload_temp")

data=hive_context.sql("select * from cip_utilities.cdm_variables_dict")
hive_context.sql("describe cip_utilities.cdm_variables_dict").registerTempTable("schema_def")
temp_data=hive_context.sql("select * from schema_def")
temp_data.show()
data1=hive_context.sql("select col_name from schema_def where data_type<>'string'")
colum_names_as_python_list_of_rows = data1.collect()

data1.show()

for line in colum_names_as_python_list_of_rows:

    #print value in MyCol1 for each row                
    ---Here i need to calculate min, max, mean etc for this particular field send by the for loop
取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:20:03

    您可以使用不同的功能查找最小值,最大值。这是使用agg函数获取dataframe列的这些细节的方法之一。

    from pyspark.sql.functions import *
    df = spark.table("HIVE_DB.HIVE_TABLE")
    df.agg(min(col("col_1")), max(col("col_1")), min(col("col_2")), max(col("col_2"))).show()
    但是,您还可以浏览描述和摘要(版本2.3以后)函数,以获取数据框中各列的基本统计信息。

    0 0
相关问答

4

回答

Spark 【问答合集】

社区小助手 2019-05-29 14:13:40 127133浏览量 回答数 4

10

回答

【精品问答合集】Hbase热门问答

hbase小能手 2019-05-29 14:37:26 120813浏览量 回答数 10

38

回答

[@饭娱咖啡][¥20]对于慢sql有没有什么比较实用的诊断和处理方法?

江小白太白 2018-10-30 18:47:38 142066浏览量 回答数 38

22

回答

爬虫数据管理【问答合集】

我是管理员 2018-08-10 16:37:41 147237浏览量 回答数 22

5

回答

java.lang.UnsupportedOperationException: This is supposed to be overridden by subclasses.

迷茫君 2019-07-16 09:26:11 118869浏览量 回答数 5

2

回答

mySQL数据库报错You have an error in your SQL syntax

落地花开啦 2016-02-14 16:09:24 128877浏览量 回答数 2

8

回答

flink sql 支持checkpoints吗?

游客izljdlkgbdwfc 2019-07-10 17:46:37 123979浏览量 回答数 8

42

回答

【精品问答集锦】Python热门问题

小六码奴 2019-05-30 15:27:34 136982浏览量 回答数 42

249

回答

阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本

云代维 2014-02-14 15:26:06 305628浏览量 回答数 249

24

回答

【精品问答】python技术1000问(1)

问问小秘 2019-11-15 13:25:00 475650浏览量 回答数 24
+关注
社区小助手
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。
12
文章
824
问答
问答排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载