开发者社区 问答 正文

Hadoop文件系统是如何生成RDD的?

Hadoop文件系统是如何生成RDD的?

展开
收起
芯在这 2021-12-07 15:17:05 480 分享 版权
1 条回答
写回答
取消 提交回答
  • 如:val file = spark.textFile("hdfs://..."),file变量就是RDD(实际是HadoopRDD实例)

    对于RDD可以有两种计算方式:转换(返回值还是一个RDD)与操作(返回值不是一个RDD)。

    转换(Transformations) (如:map, filter, groupBy, join等),Transformations操作是Lazy的,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,Spark在遇到Transformations操作时只会记录需要这样的操作,并不会去执行,需要等到有Actions操作的时候才会真正启动计算过程进行计算。

    操作(Actions) (如:count, collect, save等),Actions操作会返回结果或把RDD数据写到存储系统中。Actions是触发Spark启动计算的动因。

    2021-12-07 15:17:28
    赞同 展开评论
问答分类:
问答标签:
问答地址: