[Spark][Python]DataFrame的左右连接例子-阿里云开发者社区

[Spark][Python]DataFrame的左右连接例子

2017-12-13 1815

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

[Spark][Python]DataFrame的左右连接例子

$ hdfs dfs -cat people.json

{"name":"Alice","pcode":"94304"}

{"name":"Brayden","age":30,"pcode":"94304"}

{"name":"Carla","age":19,"pcoe":"10036"}

{"name":"Diana","age":46}

{"name":"Etienne","pcode":"94104"}

$ hdfs dfs -cat pcodes.json

{"pcode":"10036","city":"New York","state":"NY"}

{"pcode":"87501","city":"Santa Fe","state":"NM"}

{"pcode":"94304","city":"Palo Alto","state":"CA"}

{"pcode":"94104","city":"San Francisco","state":"CA"}

$pyspark

sqlContext = HiveContext(sc)
peopleDF = sqlContext.read.json("people.json")
peopleDF.limit(5).show()

+----+-------+-----+-----+

| age| name|pcode| pcoe|

+----+-------+-----+-----+

|null| Alice|94304| null|

| 30|Brayden|94304| null|

| 19| Carla| null|10036|

| 46| Diana| null| null|

|null|Etienne|94104| null|

+----+-------+-----+-----+

sqlContext = HiveContext(sc)
pcodesDF = sqlContext.read.json("pcodes.json")
pcodesDF.limit(5).show()

+-------------+-----+-----+

| city|pcode|state|

+-------------+-----+-----+

| New York|10036| NY|

| Santa Fe|87501| NM|

| Palo Alto|94304| CA|

|San Francisco|94104| CA|

+-------------+-----+-----+

mydf000 = peopleDF.join(pcodesDF,"pcode")
mydf000.limit(5).show()

+-----+----+-------+----+-------------+-----+

|pcode| age| name|pcoe| city|state|

+-----+----+-------+----+-------------+-----+

|94304|null| Alice|null| Palo Alto| CA|

|94304| 30|Brayden|null| Palo Alto| CA|

|94104|null|Etienne|null|San Francisco| CA|

+-----+----+-------+----+-------------+-----+

mydf001=peopleDF.join(pcodesDF,"pcode","leftsemi")
mydf001.limit(5).show()

+-----+----+-------+----+

|pcode| age| name|pcoe|

+-----+----+-------+----+

|94304|null| Alice|null|

|94304| 30|Brayden|null|

|94104|null|Etienne|null|

+-----+----+-------+----+

mydf002=peopleDF.join(pcodesDF,"pcode","left_outer")
mydf002.limit(5).show()

+-----+----+-------+-----+-------------+-----+

|pcode| age| name| pcoe| city|state|

+-----+----+-------+-----+-------------+-----+

|94304|null| Alice| null| Palo Alto| CA|

|94304| 30|Brayden| null| Palo Alto| CA|

| null| 19| Carla|10036| null| null|

| null| 46| Diana| null| null| null|

|94104|null|Etienne| null|San Francisco| CA|

+-----+----+-------+-----+-------------+-----+

mydf003=peopleDF.join(pcodesDF,"pcode","right_outer")
mydf003.limit(5).show()

+-----+----+-------+----+-------------+-----+

|pcode| age| name|pcoe| city|state|

+-----+----+-------+----+-------------+-----+

|10036|null| null|null| New York| NY|

|87501|null| null|null| Santa Fe| NM|

|94304|null| Alice|null| Palo Alto| CA|

|94304| 30|Brayden|null| Palo Alto| CA|

|94104|null|Etienne|null|San Francisco| CA|

+-----+----+-------+----+-------------+-----+

本文转自健哥的数据花园博客园博客，原文链接：http://www.cnblogs.com/gaojian/p/7633001.html，如需转载请自行联系原作者

[Spark][Python]DataFrame的左右连接例子

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

[Spark][Python]DataFrame的左右连接例子

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像