Spark的搜索结果_热门_第8页-阿里云开发者社区

大数据架构师

|

博文

一张图，详解大数据技术架构

# 云原生大数据计算服务 MaxCompute # 日志服务 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 云原生数据仓库AnalyticDB MySQL版 # 数据集成 Data Integration # SQL # 分布式计算 # 大数据 # Spark # 流计算

游客tvgb6vci6chtq

|

8月前

|

博文

|

来自：大数据与机器学习

Spark 与 MapReduce 的 Shuffle 的区别？

MapReduce 和 Spark 在 Shuffle 过程中有显著区别。MapReduce 采用两阶段模型，中间数据写入磁盘，I/O 开销大；而 Spark 使用基于内存的多阶段执行模型，支持操作合并和内存缓存，减少 I/O。Spark 的 RDD 转换优化减少了 Shuffle 次数，提升了性能。此外，Spark 通过 lineage 实现容错，资源管理更灵活，整体大数据处理效率更高。

# 资源管理 # 云原生大数据计算服务 MaxCompute # 缓存 # 分布式计算 # 资源调度 # 调度 # Spark

封神

|

博文

|

来自：大数据与机器学习

阿里封神谈hadoop生态学习之路

在大数据时代，要想个性化实现业务的需求，还是得操纵各类的大数据软件，如：hadoop、hive、spark等。笔者（阿里封神）混迹Hadoop圈子多年，经历了云梯1、ODPS等项目，目前base在E-Mapreduce。在这，笔者尽可能梳理下hadoop的学习之路。

# 开源大数据平台 E-MapReduce # 云数据库HBase版 # 云原生大数据计算服务 MaxCompute # 分布式计算 # Hadoop # 分布式数据库 # Spark # Hbase

扬流

|

博文

|

来自：大数据与机器学习

数据湖架构及概念简介

本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。

# 开源大数据平台 E-MapReduce # 数据湖构建 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # SQL # 分布式计算 # Cloud Native # Hadoop # 大数据 # 对象存储 # HIVE # Spark # 流计算

6hkip34i2a7n6

|

博文

Spark做TPC-DS性能测试

# 性能测试 # SQL # 存储 # 分布式计算 # 测试技术 # 对象存储 # Spark

小Lee

|

10月前

|

博文

大数据数据倾斜处理

【11月更文挑战第4天】

# 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 监控 # 大数据 # Spark

bean_stalk

|

博文

|

来自：大数据与机器学习

Spark Codegen浅析

Codegen是Spark Runtime优化性能的关键技术，核心在于动态生成java代码、即时compile和加载，把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别，分别针对表达式计算和全Stage计算做代码生成，都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。

# 开源大数据平台 E-MapReduce # Java # 分布式计算 # Spark

不语奈何

|

博文

Yarn REST API 使用指南

yarn

# 实时计算 Flink版 # 分布式计算 # 资源调度 # Hadoop # 大数据 # API # 调度 # 网络架构 # 流计算 # Spark # 容器

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

Lakehouse 架构解析与云上实践

本文整理自 DataFunCon 2021大会上，阿里云数据湖构建云产品研发陈鑫伟的分享，主要介绍了 Lakehouse 的架构解析与云上实践。

# 开源大数据平台 E-MapReduce # 数据管理 # 云原生大数据计算服务 MaxCompute # 对象存储 # 实时计算 Flink版 # 云解析DNS # 存储 # SQL # 分布式计算 # 运维 # 数据管理 # 大数据 # 对象存储 # HIVE # Spark # 流计算

osc_06552749

|

博文

Spark RDD 机制理解吗？RDD 的五大属性，RDD、DataFrame、DataSet 三者的关系，RDD 和 DataFrame 的区别，Spark 有哪些分区器【重要】

# 云原生大数据计算服务 MaxCompute # 存储 # SQL # 弹性计算 # 缓存 # 分布式计算 # 并行计算 # 大数据 # 数据处理 # 数据库 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark