【Spark Summit East 2017】Spark中的草图数据和T-Digest
本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。
Spark修炼之道(高级篇)——Spark源码阅读:第十二节 Spark SQL 处理流程分析
作者:周志湖
下面的代码演示了通过Case Class进行表Schema定义的例子:
// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
// this is used to implicitly convert an RDD to a Da
Flink Batch SQL 1.10 实践
1.10可以说是第一个成熟的生产可用的Flink Batch SQL版本,它一扫之前Dataset的羸弱,从功能和性能上都有大幅改进,以下我从架构、外部系统集成、实践三个方面进行阐述。
Apache Spark 系列技术直播 - Spark SQL 实践与优化
Apache Spark 系列技术直播
Spark SQL 实践与优化
内容简介:
SparkSQL介绍
基本原理
支持的DataSource介绍
Hue/Zepplin/Livy周边跟SparkSQL的集成使用等
SparkSQL优化
SparkSQL Catalyst优化
AE优化
Shuffle优化
直播时间: 2018.