Apache Spark 的发展历史?
Apache Spark 在 2009 年作为加州大学伯克利分校 AMPLab 的一个研究项目而问世,专注于数据密集型应用程序领域的学生、研究人员和教职员工在此项目中开展协作。Spark 的目标是打造一个全新的针对快速迭代处理(如机器学习和交互式数据分析)进行过优化的框架,与此同时保留 Hadoop MapReduce 的可扩展性和容错能力。第一篇题为《Spark: Cluster Computing with Working Sets》的论文发表于 2010 年 6 月,而 Spark 是 BSD 许可协议项下的开源系统。2013 年 6 月,Spark 在 Apache Software Foundation (ASF) 进入孵化状态,并于 2014 年 2 月被确定作为 Apache 顶级项目之一。Spark 可以在 Apache Mesos 上,但最常见的还是在 Apache Hadoop 上单独运行。
如今,Spark 已成为 Hadoop 生态系统中最活跃的项目之一,大量组织都采用 Spark 和 Hadoop 来处理大数据。2017 年,Spark 拥有 365000 名会定期参加聚会的会员,这个数字在两年时间里成长 5 倍之多。从 2009 年开始,共有来自 200 多个组织的超过 1000 名开发人员为它做出过贡献。