开发者社区> 问答> 正文

scala spark rdd joing两个具有相同id的表

社区小助手 2018-12-19 15:46:16 389

scala spark rdd joing两个具有相同id的表
我有以下rdds:

case class Rating(user_ID: Integer, movie_ID: Integer, rating: Integer, timestamp: String)
case class Movie(movie_ID: Integer, title: String, genre: String)
我和scala一起加入他们,比如:

val m = datamovie.keyBy(_.movie_ID)
val r = data.keyBy(_.movie_ID)
val mr = m.join(r)
我得到了我的结果,比如RDD[(Int, (Movie, Rating))] 如何打印具有等级5的电影的平铺。我不确定如何使用通过连接创建的新rdd!

分布式计算 Scala Spark
分享到
取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:22:58

    将它们转换为spark数据帧并执行连接。是否有一个特定的原因你想保留他们的RDD

    val m = datamovie.toDF val r = data.toDF val mr = m.join(r,Seq(“movie_id”),“left”)。where($“rating”===“5”)。select($ “标题”)

    0 0
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题
推荐课程