备案控制台

开发者社区问答正文

Flink 消费kafka ，怎么写ORC文件？

【现状如下】 Flink Job消费kafka消息，每半个小时将消费到的消息进行一系列聚合操作（flink 窗口聚合），然后写入一个orc文件。

据了解，flink写orc的桶分配策略[1]，有两种：

一种是基于时间，即按时间为目录创建orc文件。[test/realtime/ : 为根目录]

test/realtime/ └── 2021-03-23--07 ├── part-0-0.orc ├── part-0-1.orc └── 2021-03-23--08 ├── part-0-0.orc ├── part-0-1.orc

一种是将所有部分文件放在一个目录下：

test/realtime/ ├── part-0-0.orc ├── part-0-1.orc ├── part-0-2.orc ├── part-0-3.orc

【问题】

最终需求是想按照partition将每半个小时的orc文件load到hive，hive表dt为分区字段，值为时间戳，如：

hive> show partitions table_demo;

OK dt=1616455800000 dt=1616457600000 dt=1616459400000 dt=1616461200001 dt=1616463000001

Time taken: 0.134 seconds, Fetched: 5 row(s)

因此希望每个orc文件的所在目录名都是dt=时间戳的格式：

http://apache-flink.147419.n8.nabble.com/file/t1162/dir.png

用flink实现这些功能后，发现这两种桶分配策略都不能实现上述需求。

不知如何实现？之前一直是自己写代码实现聚合、写orc的操作，目录文件名一切东西完全可控，现在用flink自带的功能实现，发现不太容易实现上述需求了

来自志愿者整理的flink邮件归档

展开

收起

moonlightdisco 2021-12-01 10:29:22 1413 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

EXCEED

官网有这么一段：我们可以在格式构建器上调用 .withBucketAssigner(assigner) 来自定义 BucketAssigner 链接： https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/connectors/file_sink.html#%E6%A1%B6%E5%88%86%E9%85%8D

2021-12-01 10:53:30

赞同展开评论

问答分类：

消息中间件 SQL Kafka HIVE 流计算云消息队列 Kafka 版实时计算 Flink版

问答标签：

云消息队列 Kafka 版flink 实时计算 Flink版kafka 实时计算 Flink版文件实时计算 Flink版orc 云消息队列 Kafka 版文件

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Flink消费kafka怎么写ORC文件

143

1

0

flink cdc paimon设置了file.format为parquet但生成的文件依然是orc

333

1

0

Flink CDC有同时包含kafka以及cdc的pom文件啊我这边一直在报依赖问题？

144

1

0

Flink CDC文件有没有cdc还是说需要加工具（filebeat + kafka）才能实现吗？

134

1

0

Flink语法验证报错Illegal mixing of types in CASE or C...

234

1

0

Kafka的日志分段文件是如何切分的？

176

1

0

宜搭连接kafka文件

212

6

0

dataworks可以订阅kafka和DataHub 然后生成文件吗？

234

3

0

为什么rocketmq不像Kafka那样使用sendfile发送文件？

351

1

0

Flink CDC如果不用kafka呢，直接用logstash做log文件的读取可以吗？

320

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

PolarDB这个PXD部署这个端口可以指定吗？

通义灵码启动异常，可点击按钮进行一键修复，如仍无法解决，请参考[问题排查指南](https://he

关于idea lingma欺骗的对话。请开发者尽快修复

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

相关文章

Postgresql入门之psql用法详解（三）- 元命令详解（\dconfig-\if）

分析用户评论正面性

MaxCompute SQL AI 超轻体验

MaxCompute SQL AI 超轻体验：

告别代码焦虑：MaxCompute SQL AI 让你的数据“开口说话”

还有其他疑问?