开发者社区> 问答> 正文

你觉得Hadoop和Spark的技术优缺点以及适用场景都有哪些?

如上

展开
收起
提个问题 2023-04-23 19:08:12 707 0
1 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    1、Spark 基于内存进行数据处理,适合数据量大,对实时性要求不高的场合。 2、Hadoop要求每个步骤的数据序列化到磁盘,I/O成本高,导致交互分析迭代算法开销很大。

    • Hadoop的MapReduce表达能力有限,所有计算都要转换成 Map和Reduce两个操作,不能适用于所有场景,对于复杂的数据处理过程难以描述。
    • Spark的计算模式也属于MapReduce类型,但Spark不仅提供了 Map 和 Reduce操作,还包括了 Filter、FlatMap、Sample、GroupByKey等多种转换操作,以及Count、Collect、Reduce等行为操作。Spark基于DAG(有向无环图)的任务调度执行机制比Hadoop Mapreduce 的迭代执行机制更优越!
    2023-04-25 10:55:44
    赞同 1 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
《构建Hadoop生态批流一体的实时数仓》 立即下载
零基础实现hadoop 迁移 MaxCompute 之 数据 立即下载
CIO 指南:如何在SAP软件架构中使用Hadoop 立即下载

相关实验场景

更多