开发者社区> 问答> 正文

scala spark rdd joing两个具有相同id的表

scala spark rdd joing两个具有相同id的表
我有以下rdds:

case class Rating(user_ID: Integer, movie_ID: Integer, rating: Integer, timestamp: String)
case class Movie(movie_ID: Integer, title: String, genre: String)
我和scala一起加入他们,比如:

val m = datamovie.keyBy(_.movie_ID)
val r = data.keyBy(_.movie_ID)
val mr = m.join(r)
我得到了我的结果,比如RDD[(Int, (Movie, Rating))] 如何打印具有等级5的电影的平铺。我不确定如何使用通过连接创建的新rdd!

展开
收起
社区小助手 2018-12-19 15:46:16 1953 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    将它们转换为spark数据帧并执行连接。是否有一个特定的原因你想保留他们的RDD

    val m = datamovie.toDF val r = data.toDF val mr = m.join(r,Seq(“movie_id”),“left”)。where($“rating”===“5”)。select($ “标题”)

    2019-07-17 23:22:58
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载