备案控制台

开发者社区问答正文

如何根据条件为日期列的列中值的出现来过滤spark数据帧？

我正在使用数据框看起来像：

df
client   | date   
  C1     |08-NOV-18 11.29.43
  C2     |09-NOV-18 13.29.43
  C2     |09-NOV-18 18.29.43
  C3     |11-NOV-18 19.29.43
  C1     |12-NOV-18 10.29.43
  C2     |13-NOV-18 09.29.43
  C4     |14-NOV-18 20.29.43
  C1     |15-NOV-18 11.29.43
  C5     |16-NOV-18 15.29.43
  C10    |17-NOV-18 19.29.43
  C1     |18-NOV-18 12.29.43
  C2     |18-NOV-18 10.29.43
  C2     |19-NOV-18 09.29.43
  C6     |20-NOV-18 13.29.43
  C6     |21-NOV-18 14.29.43
  C1     |21-NOV-18 18.29.43
  C1     |22-NOV-18 11.29.43

我的目标是过滤此数据框并获取包含每个客户端最后一次出现的新数据帧，如果此次出现<24小时，例如，对于此示例，结果必须为：

 client  |date
  C2     |18-NOV-18 10.29.43
  C2     |19-NOV-18 09.29.43
  C1     |21-NOV-18 18.29.43
  C1     |22-NOV-18 11.29.43

展开

收起

社区小助手 2018-12-11 18:16:53 1956 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

使用窗口函数。看一下这个：

val df = Seq(("C1","08-NOV-18 11.29.43"),
("C2","09-NOV-18 13.29.43"),
("C2","09-NOV-18 18.29.43"),
("C3","11-NOV-18 19.29.43"),
("C1","12-NOV-18 10.29.43"),
("C2","13-NOV-18 09.29.43"),
("C4","14-NOV-18 20.29.43"),
("C1","15-NOV-18 11.29.43"),
("C5","16-NOV-18 15.29.43"),
("C10","17-NOV-18 19.29.43"),
("C1","18-NOV-18 12.29.43"),
("C2","18-NOV-18 10.29.43"),
("C2","19-NOV-18 09.29.43"),
("C6","20-NOV-18 13.29.43"),
("C6","21-NOV-18 14.29.43"),
("C1","21-NOV-18 18.29.43"),
("C1","22-NOV-18 11.29.43")).toDF("client","dt").withColumn("dt",from_unixtime(unix_timestamp('dt,"dd-MMM-yy HH.mm.ss"),"yyyy-MM-dd HH:mm:ss"))

df.createOrReplaceTempView("tbl")

val df2 = spark.sql(""" select from ( select client, dt, count() over(partition by client ) cnt, rank() over(partition by client order by dt desc) rk1 from tbl ) t where cnt>1 and rk1 in (1,2) """)

df2.alias("t1").join(df2.alias("t2"), $"t1.client" === $"t2.client" and $"t1.rk1" =!= $"t2.rk1" , "inner" ).withColumn("dt24",(unix_timestamp($"t1.dt") - unix_timestamp($"t2.dt") )/ 3600 ).where("dt24 > -24 and dt24 < 24").select($"t1.client", $"t1.dt").show(false)
结果：

client dt

C1 2018-11-22 11:29:43

C1 2018-11-21 18:29:43

C2 2018-11-19 09:29:43

C2 2018-11-18 10:29:43

2019-07-17 23:19:58

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark列 apache spark数据帧

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Python Spark Dataframe：将字符串列转换为时间戳

1130

1

0

spark从cassandra的某个表中取出部分列的数据怎么写？这样的话岂不是只能先把全部数据加载出来才过滤？

3232

1

0

获取数组中项目的索引，该数组是Spark数据帧中的列

2279

1

0

Spark检查数据帧数组中的任何单词是否包含在另一个列表中？

2363

1

0

Apache Spark 2.0：Expression-string到orderBy（）/ sort（）列的降序

2601

1

0

Spark Scala - ML - Kmeans聚类预测列

2825

1

0

指定列的Spark sql问题

7510

1

0

Spark 2.0+即使数据帧被缓存，如果其中一个源更改，它会重新计算？

3044

1

0

如何防止kafka的spark sql在数据帧中向JSON字符串添加反斜杠

3257

1

0

Spark在不同列上多次加入相同的数据集

1740

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

上传文件时提示“Illegal file path”，怎么解决的？

阿里云ESA是什么？边缘安全加速和CDN有什么区别？

阿里云短信收费标准，短信群发平台是怎么收费的？

通义灵码使用代理报错

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

相关文章

从“攒一锅再算”到“来一条就干一条”：大数据批处理到流处理的进化之路

阿里云通用算力型u2i与经济型e实例性能、适用场景区别及选择参考

AI战略丨大模型应用元年，让智能真正转变为生产力

主流ChatBi产品推荐，一文看懂分析agent产品选型

有哪些好用的BI产品？国内外BI工具推荐

还有其他疑问?