先进架构 Spark采用Scala语言编写,底层采用了actor model的akka作为通讯框架,代码十分简洁高效。 基于DAG图的执行引擎,减少多次计算之间中间结果写到Hdfs的开销。 建立在统一抽象的RDD(分布式内存抽象)之上,使得它可以以基本一致的方式应对不同的大数据处理场景。
高效 提供Cache机制来支持需要反复迭代的计算或者多次数据共享,减少数据读取的IO开销。 与Hadoop的MapReduce相比,Spark基于内存的运算比MR要快100倍;而基于硬盘的运算也要快10倍!
易用 Spark提供广泛的数据集操作类型(20+种),不像Hadoop只提供了Map和Reduce两种操作。 Spark支持Java,Python和Scala API,支持交互式的Python和Scala的shell。
提供整体解决方案 以其RDD模型的强大表现能力,逐渐形成了一套自己的生态圈,提供了full-stack的解决方案。 主要包括Spark内存中批处理,Spark SQL交互式查询,Spark Streaming流式计算, GraphX和MLlib提供的常用图计算和机器学习算法。
与Hadoop无缝连接 Spark可以使用YARN作为它的集群管理器 读取HDFS,HBase等一切Hadoop的数据
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。