开源大数据平台 E-MapReduce的搜索结果_热门

bean_stalk

|

博文

|

Spark Codegen浅析

Codegen是Spark Runtime优化性能的关键技术，核心在于动态生成java代码、即时compile和加载，把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别，分别针对表达式计算和全Stage计算做代码生成，都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。

# 开源大数据平台 E-MapReduce # Java # 分布式计算 # Spark

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验，希望2020年我们仍然能够互相支持，壮大Spark社区。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 存储 # 机器学习/深度学习 # 分布式计算 # NoSQL # 大数据 # Apache # HIVE # Spark # 流计算

开源大数据EMR

|

博文

|

来自：大数据与机器学习

阿里云智能事业群 EMR团队招人啦！

加入我们，成为分布式存储，计算和调度等领域的专家，与众多业界和社区技术专家一起工作，加速大数据上云，投身数字时代新基建。

# 开源大数据平台 E-MapReduce # 实时计算 Flink版 # 云原生大数据计算服务 MaxCompute # 云数据库HBase版 # 云消息队列 Kafka 版 # SQL # 分布式计算 # 大数据 # Hadoop # TensorFlow # 算法框架/工具 # HIVE # Spark # 流计算 # Hbase

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

【程序员（媛）国人之光】知（美）识（色）贩卖贴】非标题党】

6月spark社区活动ing～

# 开源大数据平台 E-MapReduce # 人工智能 # 分布式计算 # 达摩院 # 算法 # 程序员 # Apache # Spark # 开发者 # 异构计算

开源大数据EMR

|

博文

|

来自：大数据与机器学习

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

本文介绍都有哪些情况会产生笛卡尔积，以及如何事前"预测"写的SQL会产生笛卡尔积从而避免

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # 大数据 # Apache # HIVE # Spark

开发者说

|

博文

|

来自：大数据与机器学习

自适应查询执行AQE：在运行时加速SparkSQL

SPARK+AI SUMMIT 2020中文精华版线上峰会将会带领大家一起回顾2020年的SPARK又产生了怎样的最佳实践，技术上取得了哪些突破，以及周边的生态发展。本文是阿里巴巴云智能平台事业部王道远关于Spark3.0中自适应查询执行（AQE）的相关介绍。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。

# 开源大数据平台 E-MapReduce # 分布式计算 # Java # 大数据 # 测试技术 # 调度 # 数据库 # Spark # 人工智能

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

Delta Lake在Soul的应用实践

传统离线数仓模式下，日志入库前首要阶段便是ETL，我们面临如下问题：天级ETL任务耗时久，影响下游依赖的产出时间；凌晨占用资源庞大，任务高峰期抢占大量集群资源；ETL任务稳定性不佳且出错需凌晨解决、影响范围大。为了解决天级ETL逐渐尖锐的问题，所以这次我们选择了近来逐渐进入大家视野的数据湖架构，基于阿里云EMR的Delta Lake，我们进一步打造优化实时数仓结构，提升部分业务指标实时性，满足更多更实时的业务需求。

# 开源大数据平台 E-MapReduce # 云消息队列 Kafka 版 # 云原生大数据计算服务 MaxCompute # 日志服务 # 云解析DNS # SQL # 消息中间件 # JSON # 分布式计算 # Kafka # 数据处理 # HIVE # Spark # 数据格式 # 流计算

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

《 Delta Lake 数据湖专题系列5讲》文章回顾

《Delta Lake 数据湖专题系列5讲》由阿里云 DDI 团队翻译整理自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章。阅读完此系列文章可以帮助您达到入门级，对数据湖 Lakehouse 有整体上的认识和应用，掌握理论知识体系。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # 搜索推荐 # 大数据 # 测试技术 # Apache # 云计算 # Spark # 流计算 # Python

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

Lakehouse 架构解析与云上实践

本文整理自 DataFunCon 2021大会上，阿里云数据湖构建云产品研发陈鑫伟的分享，主要介绍了 Lakehouse 的架构解析与云上实践。

# 开源大数据平台 E-MapReduce # 数据管理 # 云原生大数据计算服务 MaxCompute # 对象存储 # 实时计算 Flink版 # 云解析DNS # 存储 # SQL # 分布式计算 # 运维 # 数据管理 # 大数据 # 对象存储 # HIVE # Spark # 流计算

梅熙

|

博文

|

来自：大数据与机器学习

使用hadoop restful api实现对集群信息的统计

本文根据hadoop/spark的RESTful API，实现了对集群基本信息的统计功能，包括HDFS文件系统、job情况、资源队列情况的统计。这些API只提供了基础的数据，具体的统计与分析，还需要基于这些基础数据做一些简单的开发。

# 开源大数据平台 E-MapReduce # 分布式计算 # Hadoop # API # Apache # 网络架构

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

开源大数据平台 E-MapReduce