文档备案控制台

开发者社区大数据文章正文

大数据Spark DataFrame/DataSet常用操作4

2023-09-19 197

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大数据Spark DataFrame/DataSet常用操作4

3.2.2 其他join类型，只需把inner改成你需要的类型即可

scala> df1.join(df2,Seq("k1"),"left").show
+---+---+---+---+---+
| k1| k2| k3| k2| k4|
+---+---+---+---+---+
|  a|  1|  2|  2|  2|
|  b|  2|  3|  2|  1|
|  b|  2|  3|  3|  3|
+---+---+---+---+---+
//左外连接 left_outer可简写为left
scala> df1.join(df2,Seq("k1"),"left_outer").show
+---+---+---+---+---+
| k1| k2| k3| k2| k4|
+---+---+---+---+---+
|  a|  1|  2|  2|  2|
|  b|  2|  3|  2|  1|
|  b|  2|  3|  3|  3|
+---+---+---+---+---+
//左半连接
scala> df1.join(df2,Seq("k1"),"leftsemi").show
+---+---+---+
| k1| k2| k3|
+---+---+---+
|  a|  1|  2|
|  b|  2|  3|
+---+---+---+
scala> df1.join(df2,Seq("k1","k2"),"left").show
+---+---+---+----+
| k1| k2| k3|  k4|
+---+---+---+----+
|  a|  1|  2|null|
|  b|  2|  3|   1|
+---+---+---+----+
scala> df1.join(df2,Seq("k1"),"right").show
+---+----+----+---+---+
| k1|  k2|  k3| k2| k4|
+---+----+----+---+---+
|  a|   1|   2|  2|  2|
|  b|   2|   3|  3|  3|
|  b|   2|   3|  2|  1|
|  c|null|null|  1|  1|
+---+----+----+---+---+

left是left_outer的简写

4 单表操作：列的增删改与空值处理

文章标签：

云原生大数据计算服务 MaxCompute

分布式计算

Spark

大数据

关键词：

云原生大数据计算服务 MaxCompute spark

apache spark大数据

云原生大数据计算服务 MaxCompute dataframe

apache spark Dataframe

云原生大数据计算服务 MaxCompute dataset

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

赵广陆

目录

相关文章

大熊计算机

|

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

701 0 0

郑小健

|

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

1258 2 3

ClickHouse与大数据生态集成：Spark & Flink 实战

Echo_Wish

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

790 79 80

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

774 2 2

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用，通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理，确保高可靠性和容错性；Spark则凭借其高性能和丰富的API，进行深度分析和机器学习，实现高效的批处理和实时处理。

土木林森

703 1 1

Echo_Wish

|

10月前

|

机器学习/深度学习传感器分布式计算

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

Echo_Wish

640 14 14

1062754335

|

数据采集分布式计算 DataWorks

ODPS在某公共数据项目上的实践

本项目基于公共数据定义及ODPS与DataWorks技术，构建一体化智能化数据平台，涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理，强化数据安全与流通，提升业务效率与决策能力，助力数字化改革。

1062754335

417 4 4

Echo_Wish

|

11月前

|

机器学习/深度学习运维监控

运维不怕事多，就怕没数据——用大数据喂饱你的运维策略

运维不怕事多，就怕没数据——用大数据喂饱你的运维策略

Echo_Wish

1083 0 0

Echo_Wish

|

10月前

|

传感器人工智能监控

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

Echo_Wish

309 14 14

Echo_Wish

|

10月前

|

机器学习/深度学习传感器监控

吃得安心靠数据？聊聊用大数据盯紧咱们的餐桌安全

吃得安心靠数据？聊聊用大数据盯紧咱们的餐桌安全

Echo_Wish

325 1 1

热门文章

最新文章

Spark SQL玩起来

Spark SQL性能优化

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

EMR Spark Relational Cache的执行计划重写

钉钉群直播【Spark Relational Cache 原理和实践】

云栖社区2019年1月技术活动：PG， Java，Spark等30+场预告【持续更新】

Spark 环境搭建_下载和解压 Spark 安装包|学习笔记

HiveOnSpark 报错：java.lang.IllegalStateException(Connection to remote Spark driver was lost)‘ Last kno

Spark Mllib里如何将trainDara训练数据文件里提取第M到第N字段（图文详解）

当“爆款书”遇上大数据：出版业的老路，正在被算法改写

基于python大数据的台风灾害分析及预测系统

基于Python大数据的热门游戏推荐系统

基于python大数据的青少年网络使用情况分析及预测系统

2026版基于python大数据的电影分析可视化系统

基于Python大数据的的电商用户行为分析系统

基于python大数据技术的医疗数据分析与研究

别再靠“拍脑袋”修系统了——聊聊大数据如何让运维更聪明

基于python大数据深度学习的酒店评论文本情感分析系统

基于python大数据的的海洋气象数据可视化平台

相关课程

更多

大数据Impala教程

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

2020版大数据实战项目之DMP广告系统（第三阶段）

2020版大数据实战项目之DMP广告系统（第七阶段）

相关电子书

更多

MaxCompute Serverless 架构演进

Data+AI时代大数据平台应该如何建设

大数据AI一体化的解读

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！