Pyspark:如何在计算pyspark sql函数时排除列的非空记录?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

Pyspark:如何在计算pyspark sql函数时排除列的非空记录?

2018-12-12 10:56:13 2363 1

我正在尝试计算每个数字字段的统计数据。但是我在这里遇到了如何在执行这个pyspark sql函数时排除null

new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])
试过这样,但它给出了错误

new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line.na.fill(0))])

SQL
取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:20:00

    可以使用select语句之前的where条件过滤空值,该isNotNull()函数排除空值。

    new_df=data.where(data.line.isNotNull()).select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])

    0 0
相关问答

3

回答

请教一个范围查询的问题

小文文文 2019-06-14 14:37:01 115304浏览量 回答数 3

4

回答

Spark 【问答合集】

社区小助手 2019-05-29 14:13:40 127087浏览量 回答数 4

10

回答

【精品问答合集】Hbase热门问答

hbase小能手 2019-05-29 14:37:26 120769浏览量 回答数 10

38

回答

干货分享:DBA专家门诊一期:索引与sql优化问题汇总

xiaofanqie 2014-12-25 15:13:38 92063浏览量 回答数 38

1

回答

通过spark-thriftserver读取hive表执行sql时,tasks 数量怎么设置

游客iwhrjhvjoyqts 2019-07-05 15:30:22 114120浏览量 回答数 1

38

回答

[@饭娱咖啡][¥20]对于慢sql有没有什么比较实用的诊断和处理方法?

江小白太白 2018-10-30 18:47:38 142040浏览量 回答数 38

2

回答

mySQL数据库报错You have an error in your SQL syntax

落地花开啦 2016-02-14 16:09:24 128818浏览量 回答数 2

8

回答

flink sql 支持checkpoints吗?

游客izljdlkgbdwfc 2019-07-10 17:46:37 123934浏览量 回答数 8

9

回答

HaoSQL,好用的SQL等数据库一键包发布!

梦丫头 2017-11-14 15:20:55 71083浏览量 回答数 9

78

回答

【2013.9.5修正版图文】新手如何使用阿里云(linux)服务器建站(搬站)

姑苏公子 2013-04-11 00:39:13 107986浏览量 回答数 78
+关注
社区小助手
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。
12
文章
824
问答
问答排行榜
最热
最新
相关电子书
更多
《Nacos架构&原理》
立即下载
《看见新力量:二》电子书
立即下载
云上自动化运维(CloudOps)白皮书
立即下载