译者:摇摆少年梦
原文地址:https://databricks.com/blog/2015/09/24/spark-survey-results-2015-are-now-available.html
SAN FRANCISCO, CA–(Marketwired - Sep 24, 2015) - 由Apache Spark创建者所成立的公司——Databricks公司,对外发布了Spark 2015 调查报告,该调查报告以842家公司中的1417个Spark使用者作为调查对象,对各大公司和用户就如何进行数据分析与处理进行了摸底。本报告显示:在受访者当中,利用Spark Stanalone构建集群比例已达48%,已经超过了Spark on Yarn(40%),除此之外还发现大多数的受访者将Spark部署在公有云上,这一比例达到51%。
最近12个月,已经有超过600个Spark源码贡献者,而在此之前的12个月人数只有315个,Spark无可争议地成为大数据领域内最活跃的开源项目(注意:没有之一)。除此之外,已经有超过200个公司为Spark奉献过源代码,使Spark社区成为迄今为止开发人员参与最多的社区。
该调查报告主要包括以下几个要点:
- Spark正在超越Hadoop:根据社区反馈过来的Spark常用部署方式,standalone方式占比为48%,Yarn占比为40%,Mesos占比为11%,其它方式为1%。2015年Spark用户中不使用Hadoop组件是2014年的两倍。
- 流式计算和高级分析工具的使用正在上升:Spark的应用更加丰富,特别是机器学习、流式计算及图像计算方面的用例日益增多。2015年Spark Streaming的使用人数较2014年增长了56%,高极分析工具如MLlib、Grahpx的使用人数从11%增加到15%,75%的用户表示使用过Spark中的两个及以上的组件(其中51%的用户使用Spark的组件数超过51%)
- Spark的用户更加多样化:Spark打破了的技术障碍,让数据科学家与工程师之间能够协同工作以解决数据问题。在受访者当中,41%的人将自己定义为数据工程师(Data Engineers),22%的人将自己定义为数据科学家(Data Scientists)。Spark使用者中使用不同的编程语言展开日常工作,其中71%的人使用Scala,58%的人使用Python,36%的人使用SQL,31%的人使用Java,18%的人使用R语言。
- Spark最常用的场景逐渐清晰:52%的使用场景是数据仓库,68%的使用场景为商业智能,40%用于处理应用程序和系统日志,36%用于面向用户的服务,29%用于欺诈检测与安全保障。
- Spark非常适用于处理大数据:Spark的使用数量正在快速增长,这归因于Spark部署与使用方便、性能稳定并且能够满足未来实时与高级数据处理需求的增长。91%的受访者认为性能是他们使用Spark的原因,77%的人归因于Saprk易于编程,71%的人归因于Spark易于部署,64%的人归因于Spark的高级分析能力,52%的人归因于Spark的实时处理能力。
“Spark的待续发展令人振奋,因为越来越多的公司使用Spark投入到生产环境并获得实际的商业价值,同时Spark的适用场景已经远超Hadoop集群”,Spark创建者、Databrick首席技术官司Matei Zaharia如是说,“Databricks与我们的团队将全心投入到Spark项目中以致力于Spark的长期发展,基于本次调查数据及后续的社区反馈,我们将对Spark进行持续改进,让Spark成为能够适用于所有商业领域的大数据处理工具”
下面是报告原文:
报告下载地址:
http://dbricks.co/sparksurvey2015
http://dbricks.co/spark-primer
http://dbricks.co/db-primer