HIVE的搜索结果_热门_第9页-阿里云开发者社区

kng32f3vbngrm

|

博文

|

数据倾斜是 Hive 中影响任务执行效率的现象，表现为某些任务处理的数据量或耗时远超其他任务。根本原因是 Shuffle 后 Key 分布不均，导致部分 Reduce 负载过高。常见场景包括空值聚合、不可拆分大文件、数值膨胀、不同数据类型 Join、Count(distinct) 计算以及表 Join 操作。解决方法包括过滤空值、转换数据类型、调整聚合策略、使用 MapJoin 等。通过合理优化，如设置 `hive.groupby.skewindata` 和 `hive.map.aggr` 参数，可以有效缓解数据倾斜问题。

# SQL # 缓存 # 分布式计算 # HIVE # Spark

晓之以理的喵~~

|

博文

Hive正则表达式

# SQL # Oracle # Java # 关系型数据库 # HIVE

wljslmz

|

博文

Hive存储表数据的默认位置详解

【8月更文挑战第31天】

# 存储 # SQL # 分布式计算 # 数据库 # HIVE

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲，三者均为 Data Lake 的数据存储中间层，其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal，起到 schema 管理、事务管理和数据管理的功能。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 存储 # 分布式计算 # Hadoop # 数据管理 # API # Apache # HIVE # Spark # 流计算

笑看风云路

|

博文

Hive安装超详细教程

带领大家进行Hive的安装

# 云数据库 RDS MySQL 版 # SQL # 存储 # 分布式计算 # Java # Hadoop # 关系型数据库 # MySQL # 数据库连接 # HIVE # Spark

hiekay

|

博文

Hive创建索引

# SQL # 数据库 # HIVE # 索引 # Java # 分布式计算 # 关系型数据库

兮辰

|

博文

MaxCompute SQL使用小技巧之时间日期处理

业务需求分析中经常会对时间日期进行处理，MaxComputer中也有很多关于日期的处理函数，文章就是对这些内置函数相互嵌套使用达到分析要求的分析

# 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # MaxCompute # HIVE

阿甘兄

|

博文

Sqoop入门（一篇就够了）

# 云数据库 RDS MySQL 版 # 云原生数据库 PolarDB # 数据集成 Data Integration # SQL # 分布式计算 # 关系型数据库 # Hadoop # MySQL # Java # DataX # 数据库 # HIVE # Hbase

真题OK撒

|

博文

HIVE 表 DLL 基本操作（一）——第1关：Create/Alter/Drop 数据库

# SQL # 存储 # Linux # 数据库 # HIVE

阿里云实时计算Flink

|

博文

|

来自：大数据与机器学习

Flink 如何实时分析 Iceberg 数据湖的 CDC 数据

数据湖的架构中，CDC 数据实时读写的方案和原理

# 实时计算 Flink版 # 云原生数据仓库AnalyticDB MySQL版 # 云数据库HBase版 # SQL # 存储 # 分布式计算 # 分布式数据库 # Apache # 数据库 # HIVE # 流计算 # Spark # Hbase

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

HIVE