开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink这边有个问题 hive中的分桶表 通过flink 能帮我们看看么 ?

Flink这边有个问题 hive中的分桶表 通过flink sqlgateway 在k8s容器里处理完 trino去查询 这个分桶的算法 文件数 命名规则等各方不太统一。 导致最终使用方trino无法查出来
能帮我们看看么 感谢 Hive table 'ro_jp.dwd_itemflow_log_dyy3' is corrupt. File 'part-84a62185-32e5-4c69-9e90-5bf3f581a981-task-0-file-0' does not match the standard naming pattern, and the number of files in the directory (29) does not match the declared bucket count (32) for partition: date=2024-03-31
我改了trino session的一些hive分桶相关的参数 没啥用
hive.bucket_execution_enabled
hive.create_empty_bucket_files
hive.parallel_partitioned_bucketed_writes
hive.validate_bucketing
我之前好像在flink文档中看到分桶版本的一些文档了 现在无法找到?

展开
收起
cuicuicuic 2024-04-09 07:50:25 13 0
1 条回答
写回答
取消 提交回答
  • flink 不支持写 hive 分桶表吧 ,此回答整理自钉群“【②群】Apache Flink China社区”

    2024-04-09 09:47:56
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
Hive Bucketing in Apache Spark 立即下载
spark替代HIVE实现ETL作业 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载