开源大数据平台 E-MapReduce

首页 标签 开源大数据平台 E-MapReduce
# 开源大数据平台 E-MapReduce #
关注
1808内容
2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析
本文来自2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》
Apache Spark中国技术交流群升级到企业群啦!!!!!!
普通群容量已满足不了Spark群众日益增长的热情,因此我们做了一个重要的决定,将全部群成员转移到企业群
通过WebUI查看Structured Streaming作业统计信息
从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。
深入剖析 Delta Lake:详解事务日志
事务日志(Transaction log)是理解 Delta Lake 的一个关键点,很多 Delta Lake 的重要特性都是基于事务日志实现的,包括 ACID 事务性、可扩展元数据处理、时间回溯等等。本文将探讨什么是事务日志,如何在文件层面实现,以及怎样优雅地解决并发读写的问题。
EMR 打造高效云原生数据分析引擎
EMR-Jindo是EMR推出的云原生 OLAP 引擎。凭借该引擎,EMR成为第一个云上TPC-DS成绩提交者。经过持续不断地内核优化,目前基于最新 EMR-Jindo 引擎的 TPC-DS 成绩又有了大幅提高,达到了3615071,成本降低到 0.76 CNY。在2019杭州云栖大会大数据技术专场,阿里云阿里巴巴计算平台事业部 EMR 技术专家辛庸向大家分享了如何基于开源体系如何打造云上数据分析平台E-MarReduce(EMR)、EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。
浅谈 Spark 的多语言支持(修订版)
Spark 设计上的优秀无容置疑,甫一出道便抢了 Hadoop 的 C 位,在开源大数据的黄金十年里一时风头无两,在人工智能时代的当下仍然能够与时俱进,不可谓不牛逼。架构和设计上的卓越,不遑多言,美中不足之处自然也有不少,比如调度模型跟 MapReduce 这种计算范式过于耦合,Spark 最近引入 Barrier 调度模式就是为了支持深度学习这种新的计算类型,所幸在于对框架的改动不会伤经动骨。
免费试用