文档备案控制台

开发者社区问答正文

Hive优化中合并小文件是什么？

Hive优化中合并小文件是什么？

展开

收起

芯在这 2021-12-11 23:33:37 483 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

hive.merg.mapfiles=true：合并map输出

hive.merge.mapredfiles=false：合并reduce输出

hive.merge.size.per.task=25610001000：合并文件的大小

hive.mergejob.maponly=true：如果支持CombineHiveInputFormat则生成只有Map的任务执行merge

hive.merge.smallfiles.avgsize=16000000：文件的平均大小小于该值时，会启动一个MR任务执行merge。

2021-12-11 23:34:27

赞同展开评论

问答分类：

SQL HIVE

问答标签：

Hive优化 Hive小文件

问答地址：

开发者社区 > 数据库 > 问答

相关问答

在Flink CDC中这种方式必须是hive的用户创建的表，创建的hdfs文件才能挂载没有其他方法?

223

0

0

E-MapReduce使用hue上传本地excel文件到hive表中报错'metastore'...

232

1

0

flink cdc写hdfs文件的时候，如果开启文件合并的话，最终的文件不能通过hive映射读取吗？

275

0

0

DataWorks因为hive表分区文件已存在，会报错，如何解决？

506

2

0

在处理流维表JOIN时，面对Hive大维表导致的OOM问题，采取了哪些优化措施？

290

2

0

MaxCompute中如何把表导出成Hive Parquet文件到oss上

206

1

0

OceanBase数据库在表对表insert数据的时候可以像hive那样直接迁移表对应的数据文件吗？

276

1

0

有遇到有Flink CDC同步到hudi，hdfs上有文件，hive没有自动建表？

386

3

0

为啥我的Flink写到Hive 看 HDFS 上面是有文件的,但是Hive 查不出来？

705

1

0

flink使用jdbcsink写入hive3的话还会产生小文件问题吗？

337

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

矩阵账号批量直播，单套软件最多能同时运营几个账号？

能不能靠谱点？每天更新，自己发现不了问题？测试人员都栽了吗？

完全没有直播经验，上手 AI 直播需要多久？

动态变量话术引擎对直播有什么作用？

在vs code安装Qoder CN，登录并订阅了个人专业版，无法使用，急急急

相关文章

分布式数据库分片策略怎么设计？透明分片实践 —— 阿里云 PolarDB-X

性能瓶颈的“诊断优先级”：CPU、IO、内存、网络，先查哪个？

数据库 AI 助手是什么？智能运维与诊断详解 —— 阿里云 PolarDB-X

分布式 JOIN 怎么优化？下推、广播、Co-located JOIN 实战 —— 阿里云 PolarDB-X

数据治理工具哪家好？2026年使用体验测评

还有其他疑问?