Spark入门

简介: spark历史:伯克利实验室研究项目,基于Hadoop的Mapreduce机制,引入内存管理机制,提高了迭代式计算和交互式中的效率。spark组件:spark core:spark基本功能,包括任务调度,内存管理,容错机制内部定义了RDDs(弹性分布式数据集),提供多个APIs调用,为...
spark历史:伯克利实验室研究项目,基于Hadoop的Mapreduce机制,引入内存管理机制,提高了迭代式计算和交互式中的效率。
spark组件:
spark core:spark基本功能,包括任务调度,内存管理,容错机制
内部定义了RDDs(弹性分布式数据集),提供多个APIs调用,为其他组件提供底层服务

spark sql:spark处理结构化数据的库,类似Hive SQL,MySql,主要为企业提供报表统计

spark streaming:实时数据流处理组件,类似Storm,提供API操作实时流数据,企业中用来从Kafka中接收数据做实时统计

Mlib:机器学习功能包,包括聚类,回归,模型评估和数据导入。同时支持集群平台上的横向扩展

Graphx:处理图的库,并进行图的并行计算

Cluster Manager是:spark自带的集群管理

Spark紧密集成的优点:
spark底层优化,基于spark底层的组件也得到相应的优化,紧密集成节省了组件的部署,测试时间



相关文章
|
6月前
|
SQL 分布式计算 调度
Spark入门(一篇就够了)(三)
Spark入门(一篇就够了)(三)
138 0
|
7月前
|
SQL 分布式计算 Java
Spark入门指南:从基础概念到实践应用全解析
在这个数据驱动的时代,信息的处理和分析变得越来越重要。而在众多的大数据处理框架中, Apache Spark 以其独特的优势脱颖而出。
67 0
|
8月前
|
存储 分布式计算 网络协议
大数据Spark Streaming入门
大数据Spark Streaming入门
80 1
|
17天前
|
分布式计算 大数据 数据处理
[AIGC大数据基础] Spark 入门
[AIGC大数据基础] Spark 入门
141 0
|
6月前
|
存储 缓存 分布式计算
Spark入门(一篇就够了)(一)
Spark入门(一篇就够了)(一)
140 0
|
6月前
|
分布式计算 Hadoop 大数据
178 Spark入门
178 Spark入门
31 0
|
3月前
|
分布式计算 资源调度 监控
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
103 1
|
3月前
|
数据采集 分布式计算 Linux
Spark实时(数据采集)项目小知识点--sed -i命令详解及入门攻略
Spark实时(数据采集)项目小知识点--sed -i命令详解及入门攻略
113 0
|
9月前
|
分布式计算 资源调度 Apache
【大数据】Apache Spark入门到实战 1
【大数据】Apache Spark入门到实战
80 0
|
6月前
|
SQL JSON 分布式计算
Spark入门(一篇就够了)(二)
Spark入门(一篇就够了)(二)
70 0