Spark 2.0 预览:更简单,更快,更智能

简介:

Apache Spark 2.0 技术预览在 Databricks Community Edition 发布。该预览包使用upstream branch-2.0构建,当启动Cluster时,使用预览包和选择“2.0 (Tech Preview)” 一样简单。
image

离最终的Apache Spark 2.0发布还有几个星期,现在先来看看有什么新特性:

image

更简单:SQL和简化的API

Spark 2.0依然拥有标准的SQL支持和统一的DataFrame/Dataset API。但我们扩展了Spark的SQL 性能,引进了一个新的ANSI SQL解析器并支持子查询。Spark 2.0可以运行所有的99 TPC-DS的查询,这需要很多的SQL:2003功能。

在编程API方面,我们已经简化了API:

统一Scala/Java下的DataFrames 和 Datasets

SparkSession

更简单、更高性能的Accumulator API

基于DataFrame的Machine Learning API 将成为主要的ML API

Machine Learning 管道持久性

R中的分布式算法

更快:Spark 作为一个编译器

Spark 2.0将拥有更快的速度,下图是Spark 2.0和Spark 1.6的速度对比图:
image

更智能:结构化数据流

通过在DataFrames之上构建持久化的应用程序来不断简化数据流,允许我们统一数据流,支持交互和批量查询。

文章转载自 开源中国社区[http://www.oschina.net]

相关文章
|
人工智能 分布式计算 算法
首届 Apache Spark AI智能诊断大赛重磅来袭!
本次大赛将由阿里云计算有限公司、英特尔(中国)有限公司联合主办,湘雅医院、浙江大学附属第二附属医院、解放军301医院作为指导单位,唯医骨科共同合作,全程有资深技术专家提供技术指导。本次挑战的目标是通过核磁共振成像来检测和分类脊柱的退行性改变,形成一批创新性强、复用率高的算法案例,并积极推动相关技术的临床应用,用科技造福医疗事业,鼓励人工智能与疾病预防深度融合的应用落地,由点到面驱动国内人工智能医疗产业发展,向公众真正意义上展示大数据AI在整个社会不可替代的价值。
首届 Apache Spark AI智能诊断大赛重磅来袭!
|
机器学习/深度学习 分布式计算 搜索推荐
3月26日Spark社区技术直播【Office Depot利用Analytics Zoo构建智能推荐系统的实践分享 】
大量实验结果表明深度学习能更好地帮助商家为用户个性化推荐感兴趣的商品。Office Depot将Analytics Zoo工具包引入到他们的推荐系统中,在Spark集群上分布式训练了各种推荐算法模型,实验结果相比于传统的推荐算法有了十分显著的提升,本次分享主要介绍Office Depot使用Analytics Zoo构建智能推荐系统的实践经验。
3月26日Spark社区技术直播【Office Depot利用Analytics Zoo构建智能推荐系统的实践分享  】
|
分布式计算 Hadoop Spark
【Hadoop Summit Tokyo 2016】当Spark邂逅智能电表
本讲义出自Michael Plazzer在Hadoop Summit Tokyo 2016上的演讲,主要分享了Spark在电力行业中的智能电表上的应用,并分享了通过大数据分析能源情况的研究以及能源时间数据序列的相关的内容。
1564 0
|
SQL 分布式计算 Hadoop
【Hadoop Summit Tokyo 2016】利用电力公司智能电表数据比较Spark SQL与Hive
本讲义出自Yusuke Furuyama与Yang Xie在Hadoop Summit Tokyo 2016上的演讲,主要分享了对于电力公司智能电表数据的数据分析案例,并分享了利用MapReduce与Spark 1.6进行计算的性能比较情况,并对于Spark 2.0的进化情况进行了分享。
2230 0
|
分布式计算 大数据 UED
【Spark Summit East 2017】FIS:加速FinTech数字智能
本讲义出自Aaron Colcord在Spark Summit East 2017上的演讲,在2017年,60%的美国人都将成为电子银行用户,面对随着银行经验越来越丰富,忠实用户也越来越多的挑战,所以不得不充分利用手中的数据构建可靠的、可行的数据分析来提高用户体验,面对数据量和数据速度,企业业务的复杂性以及过时的技术所带来的巨大挑战,FIS使用Spark和Databricks为千上万的金融机构提供了与客户建立更好的关系的能力。
2022 0
|
分布式计算 安全 Spark
【Spark Summit East 2017】RISE实验室: 赋能智能实时决策
本讲义出自Ion Stoica在Spark Summit East 2017上的演讲,主要分享了其所在的加州大学伯克利分校的RISELab的研究方向,并讨论了一些RISE技术能够输出的应用方向。
2080 0
|
人工智能 分布式计算 Spark
【Spark Summit East 2017】使用Spark构建智能服务
本讲义出自Alexis Roos 在Spark Summit East 2017上的演讲,主要介绍了Salesforce正在研发的Einstein人工智能核心平台,Einstein助力世界上最优秀的CRM系统,并向其销售、服务以及市场团队提供先进的人工智能,帮助他们发现新的观点,预测可能的结果并且给出下一步的策略。
2092 0
|
算法 搜索推荐 分布式数据库
基于Spark机器学习和实时流计算的智能推荐系统
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/46675501 概要: 随着电子商务的高速发展和普及应用,个性化推荐的推荐系统已成为一个重要研究领域。
2065 0
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
130 2
ClickHouse与大数据生态集成:Spark & Flink 实战
下一篇
DataWorks