开源大数据平台 E-MapReduce

首页 标签 开源大数据平台 E-MapReduce
# 开源大数据平台 E-MapReduce #
关注
1841内容
SparkSQL Catalyst解析
Catalyst Optimizer是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执行计划,Catalyst的优劣决定了SQL执行的性能。
EMR Spark Runtime Filter性能优化
Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网络/IO/CPU等),在同样的资源的情况下可以支撑更多的查询。
列式存储系列(二): Vertica
本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说,Vertica 是一个纯正的列式存储数据库,为此,Vertica 设计实现了 projection 这一数据模型,并围绕该模型设计实现了一套大数据分析管理引擎。
SparkSQL与Hive metastore Parquet转换
Spark SQL为了更好的性能,在读写Hive metastore parquet格式的表时,会默认使用自己的Parquet SerDe,而不是采用Hive的SerDe进行序列化和反序列化
多数据源一站式入湖
通过一站式入湖,将不同数据源的数据统一归并到以OSS对象存储为基础架构的集中式数据湖存储中,解决了企业面临的数据孤岛问题,为统一的数据分析打好了基础.
StarRocks 2.5 LTS 版本新特性介绍及阿里云EMR Serverless StarRocks火热邀测中
StarRocks 2.5 LTS 版本于近期发布,阿里云EMR Serverless StarRocks也在火热邀测中。本文将重点介绍StarRocks 2.5版本核心功能以及阿里云EMR Serverless StarRocks特性。
免费试用