文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

请问flink写hive，按小时分区，如果某个小时内一条数据都没有，那该小时对应的hdfs的目录路径

请问flink写hive，按小时分区，如果某个小时内一条数据都没有，那该小时对应的hdfs的目录路径会产生吗？

展开

收起

十一0204 2023-04-11 09:03:38 519 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com

如果某个小时内没有数据，则对应的HDFS目录路径不会被创建。只有在有数据写入时，才会自动创建对应的目录路径。这是因为Flink写Hive时，是通过Hive的分区机制来实现按小时分区的，而Hive分区的目录是在数据写入时自动创建的。如果某个小时没有数据写入，则对应的分区目录也不会被创建。

2023-04-26 22:41:53

赞同展开评论
意中人jswy

意中人就是我呀！

没数据就不会产生目录路径。此答案整理自钉群“【③群】Apache Flink China社区”

2023-04-12 08:47:41

赞同展开评论
HaydenGuo

坚持这件事孤独又漫长。
- 如果某个小时内没有数据，那么根据你的flink代码生成的Hive表的按小时分区的定义，对应的HDFS目录路径是不会被创建的。这时候，通过查询Hive表，也是无法获取到该小时的数据的。
- 在生成Hive表的DDL语句中，可以添加如下语句，让空分区的目录路径也被创建出来。
```
TBLPROPERTIES("hive.exec.dynamic.partition"="true",
              "hive.exec.dynamic.partition.mode"="nonstrict",
              "hive.exec.max.dynamic.partitions"="100000",
              "hive.exec.max.dynamic.partitions.pernode"="100000",
              "hive.exec.max.created.files"="100000",
              "hive.error.on.empty.partition"="false")
```
其中，"hive.error.on.empty.partition"="false"指定了当分区数据为空时，不抛出错误，而是创建空目录。
2023-04-11 11:19:38

赞同展开评论

问答分类：

SQL HIVE 流计算实时计算 Flink版

问答标签：

实时计算 Flink版数据实时计算 Flink版目录实时计算 Flink版hive 文件存储HDFS版数据实时计算 Flink版HDFS

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

在Flink CDC中这种方式必须是hive的用户创建的表，创建的hdfs文件才能挂载没有其他方法?

218

0

0

Flink DLF Catalog是否支持HDFS存储

186

1

0

flink cdc写hdfs文件的时候，如果开启文件合并的话，最终的文件不能通过hive映射读取吗？

271

0

0

在你们的湖仓一体架构中，Iceberg是如何与Hive和HDFS集成的？

592

1

0

flink1.18 api流失写入是加载表提示hdfs路径下表不存在

249

0

0

HDFS 在 Flink 作业中面临哪些压力？

178

1

0

业务方如何将冷数据存储在HDFS或Hive中，并通过ADB访问？

267

1

0

Flink指定chepoint为hdfs路径，启动job报错。有人遇到此问题吗？

228

1

0

Flink报错：是不是必须要指向HDFS的目录？

218

1

0

通过flink sql把数据写入hdfs，如何设置对生产的文件进行压缩？

682

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

数据库 AI 助手上手难吗、不会写 SQL 的业务人员能直接用吗：阿里云 RDS AI 助手实测

数据库性能调优怎么做、性能上不去怎么办：阿里云 RDS MySQL 性能优化实战指南

锁等待比死锁更隐蔽：不报错、不告警、只默默变慢

数据库性能调优怎么做、性能上不去怎么办：阿里云 RDS MySQL 性能优化实战指南

【2026最新】DBeaver下载、安装、数据库管理一篇搞定（附官网社区版安装包）

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

泛时序数据一站式分析与洞察

多模态数据信息提取

热门讨论

热门文章

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

flink CDC 当第一次全量正常输出后，源表中数据任何变更就无法再被捕获到了，为什么？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

Flink CDC底层监听是不是用到flink定时任务还是啥？

Flink cdc sqlserver 希望不同步某些数据行

大佬们，我目前的场景是flinkcdc 用sql将mongo数据同步到es，有人做过这样的场景吗？

展开全部

实时计算 Flink SQL 核心功能解密

通过Flink实时构建搜索引擎的索引

【阿里内部应用】利用blink+MQ实现流计算中的超时统计问题

实时计算无线数据分析

准实时异常检测系统

Apache Flink 零基础入门（一）：基础概念解析

基于实时计算（flink）打造舆情分析平台——新华智云

Apache Flink 零基础入门（二）：开发环境搭建和应用的配置、部署及运行

Flink Weekly | 每周社区动态更新 - 20200313

回顾 | Apache Flink Meetup · 线上（附 PPT 下载）

展开全部

还有其他疑问?