1)lazy记录了数据的来源,RDD是不可变的,且是lazy级别的,且rDD 之间构成了链条,lazy是弹性的基石。由于RDD不可变,所以每次操作就 产生新的rdd,不存在全局修改的问题,控制难度下降,所有有计算链条 将复杂计算链条存储下来,计算的时候从后往前回溯 900步是上一个stage的结束,要么就checkpoint 2)记录原数据,是每次修改都记录,代价很大 如果修改一个集合,代价就很小,官方说rdd是 粗粒度的操作,是为了效率,为了简化,每次都是 操作数据集合,写或者修改操作,都是基于集合的 rdd的写操作是粗粒度的,rdd的读操作既可以是粗粒度的 也可以是细粒度,读可以读其中的一条条的记录。 3)简化复杂度,是高效率的一方面,写的粗粒度限制了使用场景 如网络爬虫,现实世界中,大多数写是粗粒度的场景
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。