Spark

首页 标签 Spark
# Spark #
关注
9105内容
Hadoop大数据平台实战(05):深入Spark Cluster集群模式YARN vs Mesos vs Standalone vs K8s
Hadoop大数据平台实战(05):Spark Cluster集群模式YARN, Mesos,Standalone和K8s深入对比。监控,调度,监控,安全机制,特性对比,哪个才是最好的Spark集群管理工具。
Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析
本文主要从设计出发点、功能支持、性能等方面对比了Delta、Hudi、Iceberg 三个 data lake 方案
【Spark Summit East 2017】可扩展性机器学习的特征哈希
本讲义出自Nick Pentreath在Spark Summit East 2017上的演讲,主要介绍了特征哈希是用于处理高维特性的一个功能强大的机器学习技术,特征哈希快速、简单、并且节约内存,而且适合在线学习场景,演讲中分享了特征哈希的基本功能,以及如何使用特征哈希在机器学习中的所有功能类型,并介绍了一个在Spark ML管道中使用的更加灵活和强大的转化器。
【Spark Summit EU 2016】使用Java Agent扩展Spark
本讲义出自Jaroslav Bachorik与Adrian Popescu在Spark Summit EU上的演讲,主要介绍了Spark缓存中出现的关于when, what, where的挑战问题以及应对这一挑战使用RDDs的解决算法。
【Hadoop Summit Tokyo 2016】利用电力公司智能电表数据比较Spark SQL与Hive
本讲义出自Yusuke Furuyama与Yang Xie在Hadoop Summit Tokyo 2016上的演讲,主要分享了对于电力公司智能电表数据的数据分析案例,并分享了利用MapReduce与Spark 1.6进行计算的性能比较情况,并对于Spark 2.0的进化情况进行了分享。
扩展Spark Catalyst,打造自定义的Spark SQL引擎
在Spark2.2版本中,引入了新的扩展点,使得用户可以在Spark session中自定义自己的parser,analyzer,optimizer以及physical planning stragegy rule。
7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】
Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。
免费试用