开源大数据平台 E-MapReduce

首页 标签 开源大数据平台 E-MapReduce
# 开源大数据平台 E-MapReduce #
关注
1808内容
Apache Spark中国技术交流群升级到企业群啦!!!!!!
普通群容量已满足不了Spark群众日益增长的热情,因此我们做了一个重要的决定,将全部群成员转移到企业群
[转载] Spark Streaming 设计原理
最近两年流式计算又开始逐渐火了起来,说到流式计算主要分两种:continuous-based 和 micro-batch。最近在使用基于 micro-batch 模式的 Spark Streaming,正好结合论文介绍一下。
通过WebUI查看Structured Streaming作业统计信息
从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。
Adaptive Execution如何让Spark SQL更高效更好用?
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/adaptive_execution/ 1 背  景 Spark SQL / Catalyst 和 CBO 的优化,从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性。
深入剖析 Delta Lake:详解事务日志
事务日志(Transaction log)是理解 Delta Lake 的一个关键点,很多 Delta Lake 的重要特性都是基于事务日志实现的,包括 ACID 事务性、可扩展元数据处理、时间回溯等等。本文将探讨什么是事务日志,如何在文件层面实现,以及怎样优雅地解决并发读写的问题。
免费试用