开发者社区> 问答> 正文

Flink实时写入hive异常怎么办?

流写入hive,其实是属于数据湖的概念范畴。 因为流往hive里面写,会造成很多的碎片文件,对hdfs造成性能影响,因此一般不会在流场景下直接写入hive。 详细的可以了解 Delta lake 或 hudi。

在2020年04月1日 15:05,sunfulinsu...@163.com 写道: Hi, 场景其实很简单,就是通过Flink实时将kafka数据做个同步到hive。hive里创建了分区表。 我感觉这个场景很常见吧。之前以为是支持的,毕竟可以在通过hivecatalog创建kafka table。但是创建了不能写,有点不合理。 OK吧。想问下FLIP-115计划是在哪个release版本支持哈?1.11么?*来自志愿者整理的FLINK邮件归档

展开
收起
玛丽莲梦嘉 2021-12-03 18:42:10 1626 0
1 条回答
写回答
取消 提交回答
  • 虽然数据湖可以扩展一些事情,但是流写Hive也是Hive数仓重要的一环。

    文件数的问题: - 取决于checkpoint间隔,如果checkpoint间隔内,能写到128MB的文件,对HDFS来说就是很合适的文件大小了。 - 流写,也可以引入files compact等功能,FLIP-115里面也有讨论。*来自志愿者整理的FLINK邮件归档

    2021-12-03 19:04:04
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hive Bucketing in Apache Spark 立即下载
spark替代HIVE实现ETL作业 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载