备案控制台

开发者社区问答正文

获取数组中项目的索引，该数组是Spark数据帧中的列

我可以通过执行以下操作，根据数组字段中是否存在特定值来过滤Spark数据帧（在PySpark中）：

from pyspark.sql.functions import array_contains
spark_df.filter(array_contains(spark_df.array_column_name, "value that I want")).show()
有没有办法获得数组中项目所在位置的索引？似乎应该存在，但我找不到它。

展开

收起

社区小助手 2018-12-21 13:51:38 2276 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

在spark 2.4+中，有以下array_position功能：
df = spark.createDataFrame([(["c", "b", "a"],), ([],)], ['data'])
df.show()
+---------+
| data|
+---------+
|[c, b, a]|
| []|
+---------+
from pyspark.sql.functions import array_position
df.select(df.data, array_position(df.data, "a").alias('a_pos')).show()
+---------+-----+
| data|a_pos|
+---------+-----+
|[c, b, a]| 3|
| []| 0|
+---------+-----+
来自文档的说明：
仅定位给定数组中给定值的第一次出现的位置;
该位置不是基于零的，而是基于1的索引。如果在数组中找不到给定值，则返回0。

2019-07-17 23:23:26

赞同展开评论

问答分类：

分布式计算 Spark 索引

问答标签：

项目apache spark apache spark项目 apache spark数组 apache spark列数组apache spark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

DataWorks中为什么同样的spark代码在不同的maxcompute项目中执行有的报错？

369

2

0

MaxCompute Spark通过Yarn-Cluster模式参数准备项目工程命令是啥呢？

938

1

0

Spark的内置项目中的集群管理器的作用是什么？

395

1

0

Spark的内置项目中的Spark MLlib的作用是什么？

431

1

0

Spark的内置项目中的Spark Streaming的作用是什么？

479

1

0

Spark的内置项目中的Spark SQL的作用是什么？

431

1

0

Spark的内置项目中的Spark Core的作用是什么？

428

1

0

Python Spark Dataframe：将字符串列转换为时间戳

1122

1

0

spark从cassandra的某个表中取出部分列的数据怎么写？这样的话岂不是只能先把全部数据加载出来才过滤？

3214

1

0

根据列中的值复制Spark数据帧中的行

3606

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

钉钉:因安全管控限制,16位参与人无法直接添加到日程

如何训练属于自己的AI大模型呢？有没有大佬有相关文档参考学习下

当Supabase遇上RDS——如何高效构建轻量级应用？

阿里云服务器4核8G配置多少钱？一年、1个月或1小时收费明细

阿里云SSL证书价格一年多少钱？有免费的吗？

相关文章

一种基于跳表结构的 Java 如何控制局域网上网算法探索

构建AI智能体：九、AI数据科学NumPy — 不可不知、由点及面抽丝剥茧+趣味范例

从 VLDB‘25 看向量数据库发展方向：行业观察与技术前瞻

Ray Forward 2025 定档 12 月 20 日北京！议题征集通道已开放

运行时有出现过什么异常？

还有其他疑问?