Databricks:2015 Spark调查报告(部分译文)

简介: 译者:摇摆少年梦 原文地址:https://databricks.com/blog/2015/09/24/spark-survey-results-2015-are-now-available.htmlSAN FRANCISCO, CA–(Marketwired - Sep 24, 2015) - 由Apache Spark创建者所成立的公司——Databricks公司

译者:摇摆少年梦
原文地址:https://databricks.com/blog/2015/09/24/spark-survey-results-2015-are-now-available.html

SAN FRANCISCO, CA–(Marketwired - Sep 24, 2015) - 由Apache Spark创建者所成立的公司——Databricks公司,对外发布了Spark 2015 调查报告,该调查报告以842家公司中的1417个Spark使用者作为调查对象,对各大公司和用户就如何进行数据分析与处理进行了摸底。本报告显示:在受访者当中,利用Spark Stanalone构建集群比例已达48%,已经超过了Spark on Yarn(40%),除此之外还发现大多数的受访者将Spark部署在公有云上,这一比例达到51%。

最近12个月,已经有超过600个Spark源码贡献者,而在此之前的12个月人数只有315个,Spark无可争议地成为大数据领域内最活跃的开源项目(注意:没有之一)。除此之外,已经有超过200个公司为Spark奉献过源代码,使Spark社区成为迄今为止开发人员参与最多的社区。

该调查报告主要包括以下几个要点:

  1. Spark正在超越Hadoop:根据社区反馈过来的Spark常用部署方式,standalone方式占比为48%,Yarn占比为40%,Mesos占比为11%,其它方式为1%。2015年Spark用户中不使用Hadoop组件是2014年的两倍。
  2. 流式计算和高级分析工具的使用正在上升:Spark的应用更加丰富,特别是机器学习、流式计算及图像计算方面的用例日益增多。2015年Spark Streaming的使用人数较2014年增长了56%,高极分析工具如MLlib、Grahpx的使用人数从11%增加到15%,75%的用户表示使用过Spark中的两个及以上的组件(其中51%的用户使用Spark的组件数超过51%)
  3. Spark的用户更加多样化:Spark打破了的技术障碍,让数据科学家与工程师之间能够协同工作以解决数据问题。在受访者当中,41%的人将自己定义为数据工程师(Data Engineers),22%的人将自己定义为数据科学家(Data Scientists)。Spark使用者中使用不同的编程语言展开日常工作,其中71%的人使用Scala,58%的人使用Python,36%的人使用SQL,31%的人使用Java,18%的人使用R语言。
  4. Spark最常用的场景逐渐清晰:52%的使用场景是数据仓库,68%的使用场景为商业智能,40%用于处理应用程序和系统日志,36%用于面向用户的服务,29%用于欺诈检测与安全保障。
  5. Spark非常适用于处理大数据:Spark的使用数量正在快速增长,这归因于Spark部署与使用方便、性能稳定并且能够满足未来实时与高级数据处理需求的增长。91%的受访者认为性能是他们使用Spark的原因,77%的人归因于Saprk易于编程,71%的人归因于Spark易于部署,64%的人归因于Spark的高级分析能力,52%的人归因于Spark的实时处理能力。

“Spark的待续发展令人振奋,因为越来越多的公司使用Spark投入到生产环境并获得实际的商业价值,同时Spark的适用场景已经远超Hadoop集群”,Spark创建者、Databrick首席技术官司Matei Zaharia如是说,“Databricks与我们的团队将全心投入到Spark项目中以致力于Spark的长期发展,基于本次调查数据及后续的社区反馈,我们将对Spark进行持续改进,让Spark成为能够适用于所有商业领域的大数据处理工具”

下面是报告原文:

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

报告下载地址:
http://dbricks.co/sparksurvey2015
http://dbricks.co/spark-primer
http://dbricks.co/db-primer

目录
相关文章
|
5月前
|
机器学习/深度学习 存储 分布式计算
解释 Spark 在 Databricks 中的使用方式
【8月更文挑战第12天】
150 1
|
SQL 存储 人工智能
Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问
本文介绍了Databricks企业版Delta Lake的性能优势,借助这些特性能够大幅提升Spark SQL的查询性能,加快Delta表的查询速度。
771 2
Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问
|
SQL 存储 人工智能
Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问
本文介绍了Databricks企业版Delta Lake的性能优势,借助这些特性能够大幅提升Spark SQL的查询性能,加快Delta表的查询速度。
364 0
Databricks 企业版 Spark&Delta Lake 引擎助力 Lakehouse 高效访问
|
消息中间件 机器学习/深度学习 存储
企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值
本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。
270 0
企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值
|
消息中间件 机器学习/深度学习 存储
企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值
本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。
539 0
企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值
|
存储 机器学习/深度学习 人工智能
超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析
5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/spark(当前产品提供¥599首购试用活动,欢迎试用!)
超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析
|
数据采集 消息中间件 存储
【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍
本文主要对Databricks如何使用Spark Streaming和Delta Lake对流式数据进行数据质量监控的方法和架构进行了介绍,本文探讨了一种数据管理架构,该架构可以在数据到达时,通过主动监控和分析来检测流式数据中损坏或不良的数据,并且不会造成瓶颈。
【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍
|
存储 缓存 分布式计算
Databricks缓存提升Spark性能--为什么NVMe固态硬盘能够提升10倍缓存性能(原创翻译)
我们兴奋的宣布Databricks缓存的通用可用性,作为统一分析平台一部分的 Databricks 运行时特性,它可以将Spark工作负载的扫描速度提升10倍,并且这种改变无需任何代码修改。 1、在本博客中,我们将介绍这个新特性的两个主要特点:易用性和性能。
3341 0
|
SQL 存储 分布式计算
|
5月前
|
机器学习/深度学习 数据采集 分布式计算
【颠覆传统!】揭秘Databricks如何助力零售业需求预测——从数据到洞察,一秒钟变销售预言家!
【8月更文挑战第9天】随着大数据技术的发展,数据驱动决策日益关键,尤其在零售业中,通过分析历史销售数据预测未来趋势变得至关重要。本文探讨如何运用Databricks平台优化零售业需求预测。Databricks是一个基于Apache Spark的统一数据分析平台,能高效处理大规模数据任务。通过示例代码展示数据读取、预处理及建模过程,相较于传统方法,Databricks在数据处理能力、可扩展性、内置机器学习库以及协作版本控制方面展现出显著优势,帮助零售商优化库存管理、提升客户体验并增加销售额。
104 8

热门文章

最新文章