文档备案控制台

开发者社区问答正文

SELECT语句中的Spark IN / EXISTS谓词

以下Spark SQL测试查询：

Seq("france").toDF.createOrReplaceTempView("countries")
SELECT CASE WHEN country = 'italy' THEN 'Italy'

ELSE ( CASE WHEN country IN (FROM countries) THEN upperCase(country) ELSE country END ) 
END AS country FROM users

这会引发以下错误：

Exception in thread "main" org.apache.spark.sql.AnalysisException:

IN/EXISTS predicate sub-queries can only be used in a Filter

以下是查询的部分CASE WHEN country IN (FROM countries)原因。

是否存在Spark SQL中的任何解决方法以便country IN (FROM countries)在选择条件中进行模拟？我对纯SQL实现感兴趣，而不是通过API实现。

展开

收起

社区小助手 2018-12-12 13:38:48 4450 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。
这是正确的SQL查询：
import sparkSession.implicits._
Seq("france").toDF("country").createOrReplaceTempView("countries")
Seq(("user1", "france"), ("user2", "italy"), ("user2", "usa"))
.toDF("user", "country").createOrReplaceTempView("users")
val query =
s"""
```
 |SELECT
 |  CASE
 |    WHEN u.country = 'italy' THEN 'Italy'
 |    ELSE (
 |      CASE
 |        WHEN u.country = c.country THEN upper(u.country)
 |        ELSE u.country
 |      END
 |    ) END AS country
 |FROM users u
 |LEFT JOIN countries c
 |  ON u.country = c.country
```
""".stripMargin
sparkSession.sql(query).show()
结果：
country
FRANCE
Italy
usa
你IN/EXISTS只能在谓词中使用sql操作符的场景背后的原因是：投影CASE-WHEN中的逻辑（在我们的例子中）是对从选择返回的数据集中的每一行进行评估。考虑到这一点，CASE WHEN country IN (SELECT * FROM countries)从users表中为每一行运行等效的并不是最好的主意。因此，SQL在语言级别（sql解析器引擎）上阻止了这种情况。
2019-07-17 23:20:08

赞同展开评论

问答分类：

SQL 分布式计算 API Spark

问答标签：

apache spark谓词 apache spark select

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Spark使用OSS Select加速数据查询的步骤是什么？

830

1

0

请教一下，spark sql 执行比如select * from table where day >='2018-05-04' 后面限定过滤后的具体partition访问源码里是在哪个阶段哪个函数获取的

2692

0

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

934

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

974

1

0

maxcompute的底层引擎我用的都是mr，他是可以切换成spark吗？

2011

1

0

我想咨询下，我们的maxcompute spark程序需要访问redis，开发环境和生产环境redi

934

1

0

MaxCompute 的 spark 能读 odps 的 resource 资源吗

1145

1

0

MaxCompute 的 spark 不支持 df.createOrReplaceGlobalTem

1208

20

0

请教个问题，Spark on MaxCompute是基于内存的吗？会不会比直接用odps sql写要

813

1

0

MaxCompute Spark中磁盘空间不足的表现形式是什么？

970

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

copaw安装后选择ollma为啥报错不能安装相关模型？

建议通义灵码参考字节的trae ，可以自主选择一些开源的模型

云端部署coclaw报错

如何查看 Coding Plan 额度使用情况？

相关文章

喂饭级教程：OpenClaw（Clawdbot）AI 助手阿里云/本地部署（Windows/Mac/Linux）实战指南

如何通过API获取京东商品的券后价格详情

不做“瞎眼龙虾”！OpenClaw（Clawdbot）阿里云/本地部署，零技术10大跨境电商反爬虫平台数据抓取教程

OpenClaw（Clawdbot）阿里云部署图文教程，+Claude Code Skill 搭建自动化内容生产线，一键出稿出图推送！

不用写代码，阿里云1分钟部署OpenClaw保姆级图文教程

还有其他疑问?