备案控制台登录注册登录/注册

开发者社区问答正文

在确定排名时考虑具有相同值的项目

在spark中，我想计算值是如何小于或等于其他值。我试图通过排名实现这一目标，但排名产生， [1,2,2,2,3,4] -> [1,2,2,2,5,6] 而我想要的是 [1,2,2,2,3,4] -> [1,4,4,4,5,6]

我可以通过排名，按等级分组然后根据组中的项目数量修改排名值来实现此目的。但这有点效率低下。有更好的方法吗？

编辑：添加了我想要完成的最小示例

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions.rank
import org.apache.spark.sql.expressions.Window

object Question extends App {
val spark = SparkSession.builder.appName("Question").master("local[*]").getOrCreate()

import spark.implicits._

val win = Window.orderBy($"nums".asc)

Seq(1, 2, 2, 2, 3, 4)

.toDF("nums")
.select($"nums", rank.over(win).alias("rank"))
.as[(Int, Int)]
.groupByKey(_._2)
.mapGroups((rank, nums) => (rank, nums.toList.map(_._1)))
.map(x => (x._1 + x._2.length - 1, x._2))
.flatMap(x => x._2.map(num => (num, x._1)))
.toDF("nums", "rank")
.show(false)

}
输出：

nums	rank
1	1
2	4
2	4
2	4
3	5
4	6

展开

收起

社区小助手 2018-12-05 14:53:20 1556 版权

举报

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

使用窗口功能

scala> val df = Seq(1, 2, 2, 2, 3, 4).toDF("nums")
df: org.apache.spark.sql.DataFrame = [nums: int]

scala> df.createOrReplaceTempView("tbl")

scala> spark.sql(" with tab1(select nums, rank() over(order by nums) rk, count(*) over(partition by nums) cn from tbl) select nums, rk+cn-1 as rk2 from tab1 ").show(false)

18/11/28 02:20:55 WARN WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
nums	rk2
1	1
2	4
2	4
2	4
3	5
4	6

scala>
请注意，df不会在任何列上进行分区，因此spark会将所有数据移动到单个分区。

EDIT1：

scala> spark.sql(" select nums, rank() over(order by nums) + count(*) over(partition by nums) -1 as rk2 from tbl ").show

18/11/28 23:20:09 WARN WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
nums	rk2
1	1
2	4
2	4
2	4
3	5
4	6

scala>

2019-07-17 23:18:23 举报

赞同评论

评论

全部评论 (0)

登录后可评论

问答分类：

分布式计算 Spark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

this xml file does not appear to have any style in

44898

10

0

OSS的endpoint如何查看

35385

6

0

配置了安全组规则，端口还是无法访问

31428

24

0

购买阿里国外的云服务器是否可以访问谷歌？

79067

46

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

58734

30

0

设置域名解析如何指向我的服务器url包括端口号

17111

1

0

企业邮箱免费版

11177

5

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

252821

10

0

短信发送失败：内容关键字(GB:0010)

18538

2

0

阿里云服务器如何重置系统？

23829

4

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

VSCode无法使用灵码了？

我毫无计算机的基础，想学会用ai，搭建智能体，利用各种模型来链接使用。需要学习什么

宜搭如何使用接口存储图片？

Qwen3 32B,14B,8B大模型部署分别需要多少显存，GPU服务器如何选？

相关文章

Java 大视界 -- Java 大数据在智能建筑能耗监测与节能策略制定中的应用（182）

ODPS 拯救我为数不多的头发

我把ODPS当朋友用，它却一直当我命根子

与ODPS共处的日子

ODPS的初识和共生

还有其他疑问?

你好，我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源

状态一览

快捷访问

快捷注册登录阿里云