文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC将hive作为source表，为啥总是一提交就结束呢，有人碰到过么？

Flink CDC将hive作为source表，为啥总是一提交就结束呢，有人碰到过么？

展开

收起

真的很搞笑 2023-11-16 07:54:01 286 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
是的，有些时候 Flink CDC 在将 Hive 表作为源表进行数据采集时可能会出现问题。这可能是因为 Hive 表数据格式、元数据和 Flink 的数据结构不匹配所导致的。具体原因可能有以下几种：
1. Hive 表的数据格式不匹配：请检查 Hive 表的数据格式是否符合 Flink 的期望。
2. Hive 表的元数据错误：请检查 Hive 表的元数据是否正确。
3. Hive 表的数据类型不匹配：请检查 Hive 表的数据类型是否与 Flink 的数据类型匹配。
如果无法解决问题，您可以尝试以下方法：
```
// 将 Hive 表转换成 Parquet 格式。
CREATE TABLE my_table_in_parquet (
    ...
) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION '/path/to/parquet/data';
```
2023-11-16 13:37:06

赞同展开评论
sunrr

Flink CDC将Hive作为source表，一提交就结束的问题可能有多种原因。首先，需要确认的是Flink作业的配置是否正确，例如是否正确指定了Flink CDC连接器以及相关的Hive配置。其次，如果Flink作业在提交后立即结束，可能是因为没有正确设置Flink作业的运行模式。在这种情况下，可以尝试使用Flink SQL的INSERT INTO语句将数据插入到Hive表中。此外，还需要注意小文件问题，对于这种情况可以使用Flink SQL批处理定期执行表合并来解决。最后，也可以尝试检查是否有其他错误或异常导致作业无法正常执行。如果以上方法都无法解决问题，建议详细查看Flink作业日志以获取更多信息。

2023-11-16 10:23:45

赞同 1 展开评论

问答分类：

流计算 SQL HIVE 实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版hive 实时计算 Flink版cdc hive cdc Hive 实时计算 Flink版cdc source

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

在Flink CDC中，怎么让 FlinkSQL写入hive数据库？

440

1

0

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

3033

0

0

有用flink cdc同步mysql到hive这样搞过的源码吗?

2563

0

0

在Flink CDC中，该怎么改？hive开启ACID,还是换个doris？

393

1

0

在Flink CDC中， Flniksql 不支持MYSQL写入hive嘛？

287

1

0

在Flink CDC中，是不是任何一个source有变更都会触发计算？

212

1

0

在Flink CDC中你source写了两个，可以写一个测试下吗？

225

1

0

在Flink CDC中，是DMDRS，不知是否是否支持dm-->hive的？

200

1

0

flink cdc写入hudi的用hive管理元数据的表，这个是什么问题呢？

296

0

0

Flink有没有什么参数可以设置mysql作为source的 binlog的保存时长？

252

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

代码提速10倍，交付只快18%：AI编程的效率悖论到底卡在哪

团队里没人敢动的那段 100 行 SQL，我用 7 步拆透了

多模数据库是什么？支持哪些数据模型、能不能用 SQL 查询？阿里云 Lindorm 解析

当 PostgreSQL 坐稳数据底座，Agent 还差什么才能真正跑起来？

DCMM 2.0 L4 级 AI 能力技术架构：从数据治理底座到智能体闭环的演进路径

热门讨论

热门文章

Flink CDC刚刚写了几条数据，但是里面有点问题，其他字段都是正常的。这是咋回事呀？

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink cdc sqlserver 希望不同步某些数据行

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Segment Key主要应用在哪些场景？

Flink CDC 能适配达梦不？

flinkcdc在IDEA运行正常，打包就报错

有人遇到flink打不开web界面吗？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

有用flink cdc同步mysql到hive这样搞过的源码吗?

展开全部

数据仓库介绍与实时数仓案例

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

基于Flink的实时日志分析系统实践

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

Apache Flink 零基础入门（三）：DataStream API 编程

Apache Flink 零基础入门（一）：基础概念解析

Apache Flink 零基础入门（二）：开发环境搭建和应用的配置、部署及运行

PyFlink 社区扶持计划正式上线！

Apache Flink 进阶（四）：Flink on Yarn/K8s 原理剖析及实践

展开全部

还有其他疑问?