备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

请问flink写hive，按小时分区，如果某个小时内一条数据都没有，那该小时对应的hdfs的目录路径

请问flink写hive，按小时分区，如果某个小时内一条数据都没有，那该小时对应的hdfs的目录路径会产生吗？

展开

收起

十一0204 2023-04-11 09:03:38 258 0

3 条回答

写回答

取消提交回答

wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com

如果某个小时内没有数据，则对应的HDFS目录路径不会被创建。只有在有数据写入时，才会自动创建对应的目录路径。这是因为Flink写Hive时，是通过Hive的分区机制来实现按小时分区的，而Hive分区的目录是在数据写入时自动创建的。如果某个小时没有数据写入，则对应的分区目录也不会被创建。

2023-04-26 22:41:53

赞同展开评论打赏
意中人jswy

意中人就是我呀！

没数据就不会产生目录路径。此答案整理自钉群“【③群】Apache Flink China社区”

2023-04-12 08:47:41

赞同展开评论打赏
HaydenGuo

坚持这件事孤独又漫长。
- 如果某个小时内没有数据，那么根据你的flink代码生成的Hive表的按小时分区的定义，对应的HDFS目录路径是不会被创建的。这时候，通过查询Hive表，也是无法获取到该小时的数据的。
- 在生成Hive表的DDL语句中，可以添加如下语句，让空分区的目录路径也被创建出来。
```
TBLPROPERTIES("hive.exec.dynamic.partition"="true",
              "hive.exec.dynamic.partition.mode"="nonstrict",
              "hive.exec.max.dynamic.partitions"="100000",
              "hive.exec.max.dynamic.partitions.pernode"="100000",
              "hive.exec.max.created.files"="100000",
              "hive.error.on.empty.partition"="false")
```
其中，"hive.error.on.empty.partition"="false"指定了当分区数据为空时，不抛出错误，而是创建空目录。
2023-04-11 11:19:38

赞同展开评论打赏

问答分类：

SQL HIVE 流计算实时计算 Flink版

问答标签：

实时计算 Flink版数据实时计算 Flink版HDFS 文件存储HDFS版数据 flink文件存储HDFS版文件存储HDFS版flink

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关产品：

实时计算 Flink版

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

flink cdc写hdfs文件的时候，如果开启文件合并的话，最终的文件不能通过hive映射读取吗？

29

0

0

请教下Flink CDC 中，3.0提示这个怎么回事啊？

57

1

0

flink 1.15.4 /tmp目录，看每天都会生成10多个flink-这个是什么情况呢？

76

1

0

云数据仓库ADB_mysql的分区不能想hive那样使用吗？

8

0

0

Flink CDC这里路径正确但是还是写不进去？

10

1

0

用flinkSQL请问这是不是在flink/lib目录下缺少了相关的mysql连接包？

7

0

0

flink cdc这个配置 io.tmp.dirs 的目录怎么越来越大，怎么设置它的大小啊？

25

1

0

Flink CDC 里jar都放入lib目录了，执行flink-cdc.sh还是失败怎么弄？

21

0

0

Flink独立集群与hdfs集群不在一起，flink如何配置checkpoint目录为hdfs？

14

1

0

Flink CDC里现在官方cdc的包路径发生变更了，请问一下dinky这边是不是也需要修改一下呢？

13

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关产品

实时计算 Flink版

文档详情产品详情

热门讨论

热门文章

flink1.15启动后无法访问webui的问题有人遇到过吗

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink CDC有遇见这个问题的吗？

Flink这个未授权访问漏洞有什么解决方案吗？

Caused by: org.apache.kafka.common.errors.TimeoutE

阿里云实时计算的资源单位是什么？

yarn集群资源是充足的，为什么提交任务失败呢

Flink CDC中我使用了自定义聚合函数，但是报错这个需要怎么解决呢？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

请问如何用flink sql客户端用yarn application模式提交任务呢？

展开全部

权威详解 | 阿里新一代实时计算引擎 Blink，每秒支持数十亿次计算

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

通过Flink实时构建搜索引擎的索引

阿里云实时计算产品案例&解决方案汇总

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

基于实时计算（Flink）打造一个简单的实时推荐系统

广告场景下的实时计算

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

Flink SQL 功能解密系列 —— 阿里云流计算/Blink支持的connectors

Flink on YARN（上）：一张图轻松掌握基础架构与启动流程

展开全部

相关课程

更多

Hadoop 分布式文件系统 HDFS

945

43

去学习

大数据实时计算框架Spark快速入门

778

93

去学习

大数据Hive教程精讲

799

25

去学习

Apache Flink 入门

4826

9

去学习

相关电子书

更多

Hive Bucketing in Apache Spark 立即下载

spark替代HIVE实现ETL作业 立即下载

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载

相关实验场景

更多