Apache Spark 2.0 最快4月亮相预计效能翻九倍-阿里云开发者社区

Apache Spark 2.0 最快4月亮相预计效能翻九倍

2017-08-01 1192

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1月才刚释出1.6版的大数据技术Spark，下一个2.0版本预计4、5月释出，将提供可运行在SQL/Dataframe上的结构化串流即时引擎，并统一化Dataset及DataFrame

大数据技术Spark今年1月才刚释出1.6版，下一个2.0版本就已经蓄势待发，预计今年4、5月释出，近日Spark创办人、同时也是 Databricks技术长的Matei Zaharia，更在2016 Spark Summit上，抢先揭露了Spark 2.0即将带来的3大主要特色：包括能大幅提升Spark平台效能的Project Tungsten即将进入第二阶段，提供涵盖完整阶段的程式码产生器，Spark 2.0也将提供可运行在SQL/Dataframe上的结构化串流即时引擎，并统一化Dataset及DataFrame。

其中，持续改善Spark应用程式的记忆体及CPU效能的Project Tungsten，是一项帮助Spark大幅提升核心引擎效能的长期专案，目的是要让Spark执行效能达到硬体设备的极限，藉由内建原生记忆体管理机制以及Runtime层级的程式码产生器，来达到接近裸机的效能。

Spark从1.4到1.6版本时，便开始靠 Tungsten来优化Spark的资料处理效能，除了加入二进位的储存方式，以及基础的程式码产生器，也增加了用来描述RDD结构的DataFrame 格式，以及新的资料集API(Dataset API)，让Tungsten可被运行在使用者专案中来提升效能表现，也可用于Spark SQL及部分的MLlib上。Spark 1.6新增了基于DataFrame的扩充元件Dataset API，相较于过去的RDD API，Dataset提供更好的记忆体管理效能，及较佳的长时间执行效能。

而Spark2.0版本则将进一步提供涵盖完整阶段的程式码产生器，不仅能移除递迴式呼叫，减少效能损耗，还能进行跨运算子之间的整合，并藉由Parquet及内建快取(Built-in Cache)来优化I/O效能。

预计Spark2.0的效能将翻9倍，从1.6版时每秒可处理的1,400万个栏位，暴增到1亿2,500万，其中的Parquet效能，也将从每秒1,100万提升到每秒9,000万笔。Databricks表示，Spark技术在2015年有非常显著的成长，其贡献者在2015年已经超过 1000人，是2014年的2倍，参与各地区定期聚会的会员数量也从1万多人暴增至6万多人。而Spark 2.0将是下一个重大更新版本，预计今年4、5月释出。

本文作者：佚名

来源：51CTO

Apache Spark 2.0 最快4月亮相预计效能翻九倍

热门文章

最新文章

相关课程

相关电子书

推荐镜像

Apache Spark 2.0 最快4月亮相 预计效能翻九倍

热门文章

最新文章

相关课程

相关电子书

推荐镜像

Apache Spark 2.0 最快4月亮相预计效能翻九倍