备案控制台

开发者社区大数据文章正文

Apache Spark 的发展历史?

2022-06-12 126

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Spark 的发展历史?

　　Apache Spark 的发展历史?

　　Apache Spark 在 2009 年作为加州大学伯克利分校 AMPLab 的一个研究项目而问世，专注于数据密集型应用程序领域的学生、研究人员和教职员工在此项目中开展协作。Spark 的目标是打造一个全新的针对快速迭代处理(如机器学习和交互式数据分析)进行过优化的框架，与此同时保留 Hadoop MapReduce 的可扩展性和容错能力。第一篇题为《Spark: Cluster Computing with Working Sets》的论文发表于 2010 年 6 月，而 Spark 是 BSD 许可协议项下的开源系统。2013 年 6 月，Spark 在 Apache Software Foundation (ASF) 进入孵化状态，并于 2014 年 2 月被确定作为 Apache 顶级项目之一。Spark 可以在 Apache Mesos 上，但最常见的还是在 Apache Hadoop 上单独运行。

　　如今，Spark 已成为 Hadoop 生态系统中最活跃的项目之一，大量组织都采用 Spark 和 Hadoop 来处理大数据。2017 年，Spark 拥有 365000 名会定期参加聚会的会员，这个数字在两年时间里成长 5 倍之多。从 2009 年开始，共有来自 200 多个组织的超过 1000 名开发人员为它做出过贡献。

文章标签：

机器学习/深度学习

数据挖掘

分布式计算

Unix

Spark

Apache

Hadoop

大数据

关键词：

apache spark Apache

Apache spark

apache spark历史

Apache spark发展历史

vohelon

目录

相关文章

长梦

|

6月前

|

分布式计算大数据数据处理

Apache Spark：提升大规模数据处理效率的秘籍

【4月更文挑战第7天】本文介绍了Apache Spark的大数据处理优势和核心特性，包括内存计算、RDD、一站式解决方案。分享了Spark实战技巧，如选择部署模式、优化作业执行流程、管理内存与磁盘、Spark SQL优化及监控调优工具的使用。通过这些秘籍，可以提升大规模数据处理效率，发挥Spark在实际项目中的潜力。

长梦

494 0 0

龙大吉

|

1月前

|

分布式计算大数据 Apache

利用.NET进行大数据处理：Apache Spark与.NET for Apache Spark

【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力，Apache Spark作为高效的大数据处理引擎，广受青睐。然而，.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark，展示如何通过C#和F#等.NET语言，结合Spark的强大功能进行大数据处理，简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作，突显了.NET for Apache Spark的易用性和强大功能。

龙大吉

37 1 1

张飞的猪

|

4月前

|

分布式计算大数据 Spark

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

《Spark大数据处理：技术、应用与性能优化》深入浅出介绍Spark核心，涵盖部署、实战与性能调优，适合初学者。作者基于微软和IBM经验，解析Spark工作机制，探讨BDAS生态，提供实践案例，助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)

张飞的猪

150 1 1

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

jianz123

|

3月前

|

分布式计算 Hadoop 大数据

大数据处理框架在零售业的应用：Apache Hadoop与Apache Spark

【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持

jianz123

66 0 0

扬流

|

3月前

|

分布式计算 Serverless 数据处理

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具，它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务，以实现任务调度和执行的自动化，帮助您更有效地管理数据处理任务。

扬流

205 0 0

叫做饺子

|

4月前

|

分布式计算 Apache Spark

Python与Apache Spark：实时AI的大数据引擎——Spark Streaming实战

7月更文挑战第9天

叫做饺子

147 0 0

郑小健

|

5月前

|

分布式计算大数据数据处理

Apache Spark在大数据处理中的应用

Apache Spark是大数据处理的热门工具，由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称，提供比Hadoop更快的处理速度，支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor，核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用，并讨论了其优势（高性能、易用性、通用性和集成性）和挑战。【6月更文挑战第11天】

郑小健

142 6 6

1941623231718325

|

5月前

|

分布式计算 Spark 大数据

深入探究Apache Spark在大数据处理中的实践应用

【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架，以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件（包括Spark Core、SQL、Streaming和MLlib）及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用，可提升大数据处理效率，发挥其在各行业的潜力。

1941623231718325

349 3 3

孜倦与shine

|

5月前

|

消息中间件分布式计算关系型数据库

使用Apache Spark从MySQL到Kafka再到HDFS的数据转移

使用Apache Spark从MySQL到Kafka再到HDFS的数据转移

孜倦与shine

95 0 0

xleesf

|

6月前

|

消息中间件分布式计算 Serverless

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

xleesf

117 2 2

热门文章

最新文章

AB（apache benchmark）压力测试

RHEL 5不能安装Apache

Apache Kafka开发入门指南

如何设置Apache中的最大连接数

Julien Nioche谈Apache Nutch 2的特性及产品路线图

apache htpasswd命令

Apache + Tomcat 配置负载均衡

从零开始玩转JMX(四)——Apache Commons Modeler & Dynamic MBean

Caddy Web服务器深度解析与对比：Caddy vs. Nginx vs. Apache

Apache Dubbo 被曝出“高危”远程代码执行漏洞

EMR Serverless Spark服务最佳实践测评

E-MapReduce Serverless Spark体验评测

EMR Serverless Spark服务和EMR Serverless StarRocks服务的比较

Spark快速大数据分析PDF下载读书分享推荐

全托管一站式大规模数据处理和分析Serverless平台 | EMR Serverless Spark 评测

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

大数据平台之Spark

数据处理的艺术：EMR Serverless Spark实践及应用体验

DataWorks产品使用合集之ODPS Spark找不到自己的stdout，该如何解决

DataWorks产品使用合集之spark任务如何跨空间取表数据

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

Apache Flink 入门到实战 - Flink开源社区出品

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

推荐镜像

更多

apache

packman

CPAN

下一篇

无影云桌面