文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

为什么通过spark 写 hudi 同步 hive 设置的主键是通过join写过来的

为什么通过spark 写 hudi 同步 hive 设置的主键是通过join写过来的然后数据进入hudi后通过flink 查询就提示找不到主键此时 spark 查询是正常如果通过单独生成主键比如直接定义一个数值此时 flink是可以查询。做了测试 hudi主键必须是 int 或者 bigint 类型并且不能通过 join的方式传入否则 spark写入进去后 flink 读取立马提示找不到主键不知道大家有没有遇到这个问题的这是约束问题还是？

展开

收起

滴滴滴~ 2023-03-29 17:18:07 556 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

回回回123

用cow表试试。此答案整理自钉群“Flink CDC 社区”

2023-03-29 18:06:35

赞同展开评论

问答分类：

SQL 分布式计算 HIVE Spark 流计算实时计算 Flink版

问答标签：

Hive spark apache spark Hive spark Hive Hive join 同步Hive

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

E-MapReduce开启使用DLF统一元数据后本地开发spark程序想访问emr hive中...

175

0

0

DataWorks的hive同步报错Invalid method name: 'get_tab...

345

1

0

有用flink cdc同步mysql到hive这样搞过的源码吗?

2530

0

0

大数据计算MaxCompute 不是一个账户下的hive数据可以同步到odps吗？

197

1

0

flink cdc写入hudi的用hive管理元数据的表，这个是什么问题呢？

290

0

0

DataWorks不是一个账户的hive数据可以同步到odps吗？

223

1

0

在Flink中将流表数据与Hive维表进行JOIN时，数据是如何被分配到对应subtask的？

227

1

0

在处理流维表JOIN时，面对Hive大维表导致的OOM问题，采取了哪些优化措施？

285

2

0

DataWorks通过脚本模式配置离线同步任务，从Hive同步数据到HBase，是参数位置不对吗？

223

1

0

在Flink CDC中同步mysql数据到hive的分区表应该怎么做呢？

257

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

阿里云 EMR AI 助手正式发布：从问答工具到全栈智能运维助手

批量DML的性能与一致性：不是所有“批量操作”都应该用批量SQL

深度体验：2026外呼agent产品推荐

阿里云 Lindorm vs InfluxDB vs TDengine：时序数据库全维度对比，多模融合降本 90%

5层通信栈：多Agent集群为什么不能用一种方式通信

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

Flink cdc sqlserver 希望不同步某些数据行

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

flink CDC 当第一次全量正常输出后，源表中数据任何变更就无法再被捕获到了，为什么？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

Flink CDC底层监听是不是用到flink定时任务还是啥？

展开全部

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

深入了解 Flink 网络栈（二）：监控、指标和处理背压

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

基于实时计算（Flink）与高斯模型构建实时异常检测系统

Apache Flink 漫谈系列(09) - JOIN 算子

Apache Flink 零基础入门教程（六）：状态管理及容错机制

Apache Flink 进阶（一）：Runtime 核心机制剖析

Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL

实时计算无线数据分析

【阿里内部应用】基于Blink构建亲听项目以及全链路debug项目实时响应能力

展开全部

还有其他疑问?