使用EMR Spark Relational Cache跨集群同步数据
              Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度,Relational Cache还可以应用于其他很多场景,本文主要介绍如何使用Relational Cache跨集群同步数据表。
              
             
            
            
            
            
            
            
              
              Spark+Alluxio性能调优十大技巧
              
本文章转载于:https://zhuanlan.zhihu.com/p/54245707
由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎。
              
             
            
              
              EMR 打造高效云原生数据分析引擎
              EMR-Jindo是EMR推出的云原生 OLAP 引擎。凭借该引擎,EMR成为第一个云上TPC-DS成绩提交者。经过持续不断地内核优化,目前基于最新 EMR-Jindo 引擎的 TPC-DS 成绩又有了大幅提高,达到了3615071,成本降低到 0.76 CNY。在2019杭州云栖大会大数据技术专场,阿里云阿里巴巴计算平台事业部 EMR 技术专家辛庸向大家分享了如何基于开源体系如何打造云上数据分析平台E-MarReduce(EMR)、EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。
              
             
            
              
              Spark Streaming 框架在 5G 中的应用
              在发展 5G 和 IoT 场景的准备阶段,爱立信研究了各种可扩展和灵活的流处理框架,以解决数据流水线问题以及提升整体性能。我们通过机器学习流数据进行自适应学习和智能决策从而实现各个领域的自动化。其中使用机器学习算法从流数据中逐步学习模型和获取信息是一个巨大的挑战。