开发者社区> 问答> 正文

Spark生态圈具体是哪些?

Spark生态圈具体是哪些?

展开
收起
游客ahv54x37wvm7u 2021-12-07 19:39:31 678 0
1 条回答
写回答
取消 提交回答
  • 从内往外看,生态圈核心是Spark Core,包括各种Spark的各种核心组件,它们能够对内存和硬盘进行操作,或者调用CPU进行计算。

    紧邻核心圈的是与Spark相关的各类接口,比如Java,Python和R等。

    这些接口的外部是针对不同类型数据的计算引擎。比如说针对关系型数据进行处理的Spark SQL,针对对流数据进行打包批量处理的Spark Steam,针对Machine Learning相关的库MLib,针对图的GraphX,以及针对大规模数据进行采样和计算从而缩短计算时间的BlinkDB。

    再往外就是Spark运行的各种场景。比如说单机运行,在Yarn上进行管理运行等等。

    最外层就涉及基础数据存储。我们可以用文档型数据库,关系型数据库,图数据库等等。所有这些数据存储系统Spark都能访问,这归功于Techyon。它对底层不同的数据存储系统进行封装,提供统一的API进行访问。它还可以看作是是对底层数据的缓存,更多关于Techyon的内容可以参照深入浅出Techyon。

    2021-12-07 19:58:10
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载