文档备案控制台

开源大数据平台 E-MapReduce

# 开源大数据平台 E-MapReduce #

0 关注

1841内容

相关子社区

169内容 1活动 397关注

最新热门文章问答视频电子书训练营活动

寒沙牧

|

博文

|

来自：大数据与机器学习

SparkSQL Catalyst解析

Catalyst Optimizer是SparkSQL的核心组件(查询优化器)，它负责将SQL语句转换成物理执行计划，Catalyst的优劣决定了SQL执行的性能。

# 开源大数据平台 E-MapReduce # 云解析DNS # SQL

寒沙牧

|

博文

|

来自：大数据与机器学习

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作，特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据，一方面可以提高查询性能，另一方面也可以减少资源的消耗(网络/IO/CPU等)，在同样的资源的情况下可以支撑更多的查询。

# 开源大数据平台 E-MapReduce # 存储 # SQL # 分布式计算 # Spark # 测试技术

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

列式存储系列（二）: Vertica

本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说，Vertica 是一个纯正的列式存储数据库，为此，Vertica 设计实现了 projection 这一数据模型，并围绕该模型设计实现了一套大数据分析管理引擎。

# 开源大数据平台 E-MapReduce # 资源编排 # 存储 # SQL # 容器 # 分布式计算 # 数据库

开源大数据EMR

|

博文

|

来自：大数据与机器学习

【译】Apache Spark 数据建模之时间维度（一）

Data Modeling in Apache Spark - Part 1 : Date Dimension

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # 数据挖掘 # 数据建模 # BI # Scala # Apache # Spark # 存储 # 大数据

开源大数据EMR

|

博文

|

来自：大数据与机器学习

SparkSQL与Hive metastore Parquet转换

Spark SQL为了更好的性能，在读写Hive metastore parquet格式的表时，会默认使用自己的Parquet SerDe，而不是采用Hive的SerDe进行序列化和反序列化

# 开源大数据平台 E-MapReduce # SQL # 缓存 # 分布式计算 # 大数据 # Hadoop # 数据处理 # Apache # HIVE # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

【程序员（媛）国人之光】知（美）识（色）贩卖贴】非标题党】

6月spark社区活动ing～

# 开源大数据平台 E-MapReduce # 人工智能 # 分布式计算 # 达摩院 # 算法 # 程序员 # Apache # Spark # 开发者 # 异构计算

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

多数据源一站式入湖

通过一站式入湖，将不同数据源的数据统一归并到以OSS对象存储为基础架构的集中式数据湖存储中，解决了企业面临的数据孤岛问题，为统一的数据分析打好了基础.

# 开源大数据平台 E-MapReduce # 对象存储 # 表格存储 # 日志服务 # 存储 # SQL # 分布式计算 # NoSQL # 关系型数据库 # 数据库 # 对象存储 # 流计算 # Spark # RDS

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

云原生数据湖构建、分析与开发治理最佳实践及案例分享

什么是数据湖？又如何对对数据湖进行分析与开发治理？本文深入浅出的介绍了云原生数据湖构建、分析与开发治理最佳实践及案例分享。

# 数据湖构建 # 对象存储 # 云原生数据仓库AnalyticDB MySQL版 # 数据集成 Data Integration # 大数据开发治理平台 DataWorks # 弹性伸缩 # 云原生大数据计算服务 MaxCompute # 数据安全中心 # 终端访问控制系统 # 日志服务 # 实时计算 Flink版 # 云数据库 RDS MySQL 版 # 访问控制 # 开源大数据平台 E-MapReduce # 存储 # 弹性计算 # 分布式计算 # DataWorks # Cloud Native # 大数据 # BI # 调度 # 对象存储 # 监控

游客3oewgrzrf6o5c

|

问答

|

来自：大数据与机器学习

请问starrocks用smt工具，执行./starrocks-migrate-tool,自动构建f

# 开源大数据平台 E-MapReduce # 实时计算 Flink版

扬流

|

博文

|

来自：大数据与机器学习

StarRocks 2.5 LTS 版本新特性介绍及阿里云EMR Serverless StarRocks火热邀测中

StarRocks 2.5 LTS 版本于近期发布，阿里云EMR Serverless StarRocks也在火热邀测中。本文将重点介绍StarRocks 2.5版本核心功能以及阿里云EMR Serverless StarRocks特性。

# 函数计算 # 对象存储 # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # 存储 # SQL # 分布式计算 # 数据挖掘 # 大数据 # Hadoop # Serverless # Apache # 对象存储 # HIVE

1

...

13

14

15

...

20

免费试用