文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

请问flink写hive，按小时分区，如果某个小时内一条数据都没有，那该小时对应的hdfs的目录路径

请问flink写hive，按小时分区，如果某个小时内一条数据都没有，那该小时对应的hdfs的目录路径会产生吗？

展开

收起

十一0204 2023-04-11 09:03:38 510 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com

如果某个小时内没有数据，则对应的HDFS目录路径不会被创建。只有在有数据写入时，才会自动创建对应的目录路径。这是因为Flink写Hive时，是通过Hive的分区机制来实现按小时分区的，而Hive分区的目录是在数据写入时自动创建的。如果某个小时没有数据写入，则对应的分区目录也不会被创建。

2023-04-26 22:41:53

赞同展开评论
意中人jswy

意中人就是我呀！

没数据就不会产生目录路径。此答案整理自钉群“【③群】Apache Flink China社区”

2023-04-12 08:47:41

赞同展开评论
HaydenGuo

坚持这件事孤独又漫长。
- 如果某个小时内没有数据，那么根据你的flink代码生成的Hive表的按小时分区的定义，对应的HDFS目录路径是不会被创建的。这时候，通过查询Hive表，也是无法获取到该小时的数据的。
- 在生成Hive表的DDL语句中，可以添加如下语句，让空分区的目录路径也被创建出来。
```
TBLPROPERTIES("hive.exec.dynamic.partition"="true",
              "hive.exec.dynamic.partition.mode"="nonstrict",
              "hive.exec.max.dynamic.partitions"="100000",
              "hive.exec.max.dynamic.partitions.pernode"="100000",
              "hive.exec.max.created.files"="100000",
              "hive.error.on.empty.partition"="false")
```
其中，"hive.error.on.empty.partition"="false"指定了当分区数据为空时，不抛出错误，而是创建空目录。
2023-04-11 11:19:38

赞同展开评论

问答分类：

SQL HIVE 流计算实时计算 Flink版

问答标签：

实时计算 Flink版数据实时计算 Flink版目录实时计算 Flink版hive 文件存储HDFS版数据实时计算 Flink版HDFS

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink中checkpoint、io_tmp、rocksdb目录下会产生非常多的hardlink

484

1

0

flink 读取oss-hdfs数据问题

326

1

0

在Flink CDC中，怎么没字段 hdfs上文件也是空的？

223

0

0

在Flink CDC中，这个flink老是会产生，这个目录下的日志文件没滚动删除，咋个配置目录转移？

243

0

0

在你们的湖仓一体架构中，Iceberg是如何与Hive和HDFS集成的？

585

1

0

flink sink为 maxcompute时如何配置 ts字段按每个月分区？

245

0

0

业务方如何将冷数据存储在HDFS或Hive中，并通过ADB访问？

266

1

0

Flink指定chepoint为hdfs路径，启动job报错。有人遇到此问题吗？

225

1

0

在Flink CDC中如下是这个参数控制保留hive 多久的分区吗？

202

0

0

Flink报错：是不是必须要指向HDFS的目录？

215

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

阿里云实时计算Flink版对接实战：从数据源到结果表的全链路开发指南

Java CRUD自动生成怎么用？AI一键生成增删改查完整代码实测

阿里云RDS数据迁移完全实战手册：从本地数据库到云端平滑上云

阿里云国际站安全中心：日志检索攻击溯源实战

哔哩哔哩基于阿里云PolarDB与通义千问构建全域内容洞察新框架

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

泛时序数据一站式分析与洞察

多模态数据信息提取

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

有用flink cdc同步mysql到hive这样搞过的源码吗?

Flink CDC里这个问题怎么解决？

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

flinkcdc在IDEA运行正常，打包就报错

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

展开全部

数据仓库介绍与实时数仓案例

流计算StreamCompute

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink Checkpoint 问题排查实用指南

展开全部

还有其他疑问?