scala spark rdd joing两个具有相同id的表
我有以下rdds:
case class Rating(user_ID: Integer, movie_ID: Integer, rating: Integer, timestamp: String)
case class Movie(movie_ID: Integer, title: String, genre: String)
我和scala一起加入他们,比如:
val m = datamovie.keyBy(_.movie_ID)
val r = data.keyBy(_.movie_ID)
val mr = m.join(r)
我得到了我的结果,比如RDD[(Int, (Movie, Rating))] 如何打印具有等级5的电影的平铺。我不确定如何使用通过连接创建的新rdd!
将它们转换为spark数据帧并执行连接。是否有一个特定的原因你想保留他们的RDD
val m = datamovie.toDF val r = data.toDF val mr = m.join(r,Seq(“movie_id”),“left”)。where($“rating”===“5”)。select($ “标题”)
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。