开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

在实时数仓的解决方案中,怎样凭借 Flink 的流式处理优势做到实时读写 Hive?

在实时数仓的解决方案中,怎样凭借 Flink 的流式处理优势做到实时读写 Hive?

展开
收起
游客6lve7fjcitvo6 2022-05-13 23:12:21 1403 0
1 条回答
写回答
取消 提交回答
  • Hive写入:FLIP-115 完善扩展了 FileSystem connector 的基础能力和实现,Table/SQL 层的 sink 可以支持各种格式(CSV、Json、Avro、Parquet、ORC),而且支持 Hive table 的所有格式。Partition 支持:数据导入 Hive 引入 partition 提交机制来控制可见性,通过sink.partition-commit.trigger 控制 partition 提交的时机,通过 sink.partition-commit.policy.kind 选择提交策略,支持 SUCCESS 文件和 metastore 提交。Hive 读取:实时化的流式读取 Hive,通过监控 partition 生成增量读取新 partition,或者监控文件夹内新文件生成来增量读取新文件。

    2022-05-14 08:15:33
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    基于云原生数据仓库AnalyticDB PG的最佳实践 立即下载
    新氧云原生全栈数仓最佳实践 立即下载
    离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进 立即下载