使用EMR Spark Relational Cache跨集群同步数据
Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度,Relational Cache还可以应用于其他很多场景,本文主要介绍如何使用Relational Cache跨集群同步数据表。
X-Pack Spark使用[FAQ]
概述
本文主要列出在使用X-Pack Spark的FAQ。
Spark Connectors
主要列举Spark 对接其它数据源遇到的问题
Spark on HBase
Spark on HBase Connector:如何在Spark侧设置HBase参数。
StreamingPro 支持多输入,多输出配置
最近正好有个需求,就是从不同的数据库以及表里拉出数据,经过一定的处理放到ES里供查询,最好还能放个到parquet里,这样可以支持更复杂的SQL。之前StreamingPro是只能配置一个数据源的,所以做了些改造,方便配置多个数据源,以及多个写出。