Spark的搜索结果_热门_第14页-阿里云开发者社区

ClouGence

|

2月前

|

博文

|

来自：数据库

数据湖技术选型指南：Iceberg vs Delta Lake vs Paimon

对比当前最主流的三种开源湖格式：Iceberg、Delta Lake 和 Paimon，深入分析它们的差异，帮助大家更好地进行技术选型。

# 存储 # 分布式计算 # 数据库 # C++ # Spark

技术小达人

|

10月前

|

博文

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

# 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # Java # API # Spark

大数据架构师

|

博文

一张图，详解大数据技术架构

# 云原生大数据计算服务 MaxCompute # 日志服务 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 云原生数据仓库AnalyticDB MySQL版 # 数据集成 Data Integration # SQL # 分布式计算 # 大数据 # Spark # 流计算

AIweker

|

博文

机器学习分布式框架Ray

Ray是UC Berkeley RISELab推出的一个高性能分布式执行框架，它比Spark更具计算优势，部署简单，支持机器学习和深度学习的分布式训练。Ray包括节点（head和worker）、本地调度器、object store、全局调度器（GCS），用于处理各种分布式计算任务。它支持超参数调优（Ray Tune）、梯度下降（Ray SGD）、推理服务（Ray SERVE）等。安装简单，可通过`pip install ray`。使用时，利用`@ray.remote`装饰器将函数转换为分布式任务，通过`.remote`提交并用`ray.get`获取结果。5月更文挑战第15天

# GPU云服务器 # 机器学习/深度学习 # 分布式计算 # 调度 # 算法框架/工具 # Spark

skin778

|

博文

|

来自：数据库

“数据湖”：概念、特征、架构与案例

作者：惊玄

# 云原生大数据计算服务 MaxCompute # 终端访问控制系统 # 日志服务 # 云原生数据仓库AnalyticDB MySQL版 # 数据集成 Data Integration # 数据湖构建 # 数据管理 # 函数计算 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 对象存储 # 实时计算 Flink版 # 访问控制 # 存储 # SQL # 分布式计算 # 大数据 # 数据挖掘 # 数据处理 # 数据库 # 对象存储 # Spark # 流计算

扬流

|

博文

|

来自：大数据与机器学习

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势，湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

# 开源大数据平台 E-MapReduce # 对象存储 # 日志服务 # 云解析DNS # 存储 # 数据采集 # 机器学习/深度学习 # 分布式计算 # 大数据 # BI # 数据库 # 对象存储 # Spark # 数据格式

豁朗

|

博文

|

来自：云存储

Velox表达式计算原理调研

velox是Meta开源的高性能的C++计算引擎，本文主要来调研下其表达式计算的实现原理。

# 日志服务 # 存储 # SQL # 分布式计算 # C++ # Spark

kng32f3vbngrm

|

博文

|

来自：大数据与机器学习

手把手教你解决 Hive 的数据倾斜

数据倾斜是 Hive 中影响任务执行效率的现象，表现为某些任务处理的数据量或耗时远超其他任务。根本原因是 Shuffle 后 Key 分布不均，导致部分 Reduce 负载过高。常见场景包括空值聚合、不可拆分大文件、数值膨胀、不同数据类型 Join、Count(distinct) 计算以及表 Join 操作。解决方法包括过滤空值、转换数据类型、调整聚合策略、使用 MapJoin 等。通过合理优化，如设置 `hive.groupby.skewindata` 和 `hive.map.aggr` 参数，可以有效缓解数据倾斜问题。

# SQL # 缓存 # 分布式计算 # HIVE # Spark

CodeLeader

|

博文

CBAM:Convolutional Block Attention Module--通道+空间混合注意力

提出了**卷积块注意模块（CBAM）**，这是一种用于前馈卷积神经网络的简单而有效的注意模块。==给定一个中间特征图，我们的模块沿两个单独的维度（通道和空间）顺序推断注意力图，然后将注意力图乘以输入特征图以进行自适应特征细化。==因为 CBAM 是一个轻量级的通用模块，它可以无缝集成到任何 CNN 架构中，开销可以忽略不计，并且可以与基础 CNN 一起进行端到端训练。

# 机器学习/深度学习 # 资源调度 # 分布式计算 # 数据可视化 # 测试技术 # TensorFlow # 算法框架/工具 # 计算机视觉 # Spark # 网络可视化

_BugMan

|

博文

【大数据】计算引擎：Spark核心概念

# 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # 并行计算 # 大数据 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark