5分钟迅速搭建云上Lambda大数据分析架构
主要介绍基于 Tablestore 的数据变更实时捕获订阅能力,实现云上Lambda 架构的轻量化实现数据的实时和离线处理。演示模拟了一个电商订单场景,通过流计算实现订单大屏的场景,做到海量订单实时注入的同时,进行10s的订单统计聚合以及交易金额统计并做实时的大屏幕展示
自建hadoop集群迁移到EMR之数据迁移篇
自建集群要迁移到EMR集群,往往需要迁移已有数据。本文主要介绍hdfs数据和hive meta数据如何迁移。
前置
已按需求创建好EMR集群。
迁移hdfs数据
主要依靠distcp,核心是打通网络,确定hdfs参数和要迁移内容,测速,迁移。
SparkSQL Catalyst解析
Catalyst Optimizer是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执行计划,Catalyst的优劣决定了SQL执行的性能。
Apache Spark 系列技术直播 - Spark SQL 实践与优化
Apache Spark 系列技术直播
Spark SQL 实践与优化
内容简介:
SparkSQL介绍
基本原理
支持的DataSource介绍
Hue/Zepplin/Livy周边跟SparkSQL的集成使用等
SparkSQL优化
SparkSQL Catalyst优化
AE优化
Shuffle优化
直播时间: 2018.
【译】Apache Spark 2.4 内置数据源 Apache Avro
原文链接: Apache Avro as a Built-in Data Source in Apache Spark 2.4
Apache Avro 是一种流行的数据序列化格式。它广泛使用于 Apache Spark 和 Apache Hadoop 生态中,尤其适用于基于 Kafka 的数据流场景。
SparkSQL ThriftServer 安全相关功能的现状分析
SparkSQL Thrift Server 是 Spark SQL基于 Apache Hive的 HiveServer2开发的,通过SparkSQL Thrift Server 可以使 Spark SQL支持 JDBC/ODBC 的连接方式,用户可以通过 JDBC and ODBC 协议,在Spark上执行 SQL。
通过Gateway访问Presto
本文介绍使用HAProxy反向代理实现通过Gateway节点访问Presto服务的方法。该方法也很容扩展到其他组件,如Impala等。