spark sql中join操作与left join操作区别是什么?
join和sql中的inner join操作很相似,返回结果是前面一个集合和后面一个集合中匹配成功的,过滤掉关联不上的
left join\
类似于sql中的左外连接left outer join,返回结果以第一个RDD为主,关联不上的记录为空
部分场景下可以使用left semi join替代left join:
因为left semi join是in(keySet)的关系,遇到右表重复记录,左表会跳过,性能更高,而left join则会一直遍历,但是left semijoin中最后select的结果中只许出现左表中的列名,因为右表只有join key参与关联计算了
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。