文档备案控制台

开发者社区问答正文

Scala Spark中相同Spark Dataframe列上的顺序动态过滤器

我有一个名为root的列，需要根据根列的不同值过滤数据帧。

假设我在root中有一个值是父，子或子子，我想通过变量动态应用这些过滤器。

val x = ("parent,child,sub-child").split(",")
x.map(eachvalue <- {

var df1 = df.filter(col("root").contains(eachvalue))

}
但是当我这样做时，它总是覆盖DF1，我想要应用所有3个过滤器并获得结果。

可能在将来我可以将列表扩展到任意数量的过滤器值，代码应该可以工作。

展开

收起

社区小助手 2018-12-21 13:15:41 2894 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。
您应该将后续过滤器应用于上一个过滤器的结果，而不是df：

val x = ("parent,child,sub-child").split(",")
var df1 = df
x.map(eachvalue <- {
```
df1 = df1.filter(col("root").contains(eachvalue))
```
}
df1 在地图操作之后将应用所有过滤器。
2019-07-17 23:23:22

赞同展开评论

问答分类：

分布式计算 Scala Spark

问答标签：

apache spark Dataframe apache spark Scala Scala Spark apache spark动态 Scala过滤器

问答地址：

开发者社区 > 大数据 > 问答

相关问答

大数据计算MaxCompute的Maxcompute Spark 任务，开启动态资源调度，怎么报错？

347

3

0

阿里云E-MapReduce如何讓 spark 任務的 dataframe可以出現在日志之內?

508

0

0

Spark的RDD和DataFrame编程模式如何帮助提升核算效率？

188

1

0

在表格存储中spark dataframe读写OTS的话使用如下会报错，如何解决?

229

0

0

DataWorks如何设置环境变量哈，便于spark 运行任务时动态获取？

198

1

0

spark.aliyun.odps.datasource 有没有基于scala 2.12构建的版本？

348

4

0

基于yarn，spark任务可以配置动态资源内存和核数，flink呢？

473

1

0

用Scala写Spark这种工具比用Java写有什么优点啊？

935

1

0

Spark MLlib中的DataFrame的作用是什么？

505

1

0

使用Spark读写OSS文件示例代码（以Scala为例）是什么？

1381

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

需要支持自定义Kimi k3 API

我购买了pro+套餐，在vs code中使用提示限额，需要怎么处理？

WordPress站点怎么进行速度优化？

阿里云CDN如何加速配置？

Qodework cn 能不能提供一个 API 接口？

相关文章

Lake Search：ES x Paimon 让湖上多模态数据可搜可用

阿里云服务器实例选择指南：经济型、通用型、计算型、内存型性能解析与场景解析

AutoMQ x 阿里云 OSS Tables：基于 Iceberg 构建流表一体的实时入湖

阿里云数据总线DataHub深度对接实战指南：从入门到生产级管道构建

EMR + Flink 实战：从离线T+1到实时数仓的完整迁移路径

还有其他疑问?