备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC将hive作为source表，为啥总是一提交就结束呢，有人碰到过么？

Flink CDC将hive作为source表，为啥总是一提交就结束呢，有人碰到过么？

展开

收起

真的很搞笑 2023-11-16 07:54:01 171 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
是的，有些时候 Flink CDC 在将 Hive 表作为源表进行数据采集时可能会出现问题。这可能是因为 Hive 表数据格式、元数据和 Flink 的数据结构不匹配所导致的。具体原因可能有以下几种：
1. Hive 表的数据格式不匹配：请检查 Hive 表的数据格式是否符合 Flink 的期望。
2. Hive 表的元数据错误：请检查 Hive 表的元数据是否正确。
3. Hive 表的数据类型不匹配：请检查 Hive 表的数据类型是否与 Flink 的数据类型匹配。
如果无法解决问题，您可以尝试以下方法：
```
// 将 Hive 表转换成 Parquet 格式。
CREATE TABLE my_table_in_parquet (
    ...
) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.parquet.serde.ParquetHiveSerDe'
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION '/path/to/parquet/data';
```
2023-11-16 13:37:06

赞同展开评论
sunrr

Flink CDC将Hive作为source表，一提交就结束的问题可能有多种原因。首先，需要确认的是Flink作业的配置是否正确，例如是否正确指定了Flink CDC连接器以及相关的Hive配置。其次，如果Flink作业在提交后立即结束，可能是因为没有正确设置Flink作业的运行模式。在这种情况下，可以尝试使用Flink SQL的INSERT INTO语句将数据插入到Hive表中。此外，还需要注意小文件问题，对于这种情况可以使用Flink SQL批处理定期执行表合并来解决。最后，也可以尝试检查是否有其他错误或异常导致作业无法正常执行。如果以上方法都无法解决问题，建议详细查看Flink作业日志以获取更多信息。

2023-11-16 10:23:45

赞同 1 展开评论

问答分类：

流计算 SQL HIVE 实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版hive 实时计算 Flink版cdc hive cdc Hive 实时计算 Flink版cdc source

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

在Flink CDC中，怎么让 FlinkSQL写入hive数据库？

201

1

0

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

119

0

0

有用flink cdc同步mysql到hive这样搞过的源码吗?

128

0

0

在Flink CDC中，该怎么改？hive开启ACID,还是换个doris？

81

1

0

在Flink CDC中， Flniksql 不支持MYSQL写入hive嘛？

133

1

0

在Flink CDC中，是DMDRS，不知是否是否支持dm-->hive的？

83

1

0

在Flink CDC中，当flink source为socket端口，Checkpoint没有生效？

145

0

0

flink cdc写入hudi的用hive管理元数据的表，这个是什么问题呢？

171

0

0

Flink有没有什么参数可以设置mysql作为source的 binlog的保存时长？

126

1

0

在Flink CDC中如下是这个参数控制保留hive 多久的分区吗？

114

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

别再全量拉表了兄弟：一篇讲透增量数据处理与 CDC 的实战指南

MaxCompute SQL AI 实战案例征集令

【MaxCompute SQL AI 实操教程】0元体验使用大模型提效数据分析

企业数据分析系统建设费用多少？高性价比免费 BI 产品推荐

Oracle 窗口函数

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

服务器<details open ontoggle="alert(9);"></details>

flink cdc source端能降低消费速度嘛？

flink cdc同步的源表，一定要有主键么？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

请问如何用flink sql客户端用yarn application模式提交任务呢？

Flink CDC 人大金仓能作为source吗？支持bin-log吗？

flinkcdc启动，怎么修改默认端口号，默认是8081。

Flink CDC中MySQL 进行cdc的用户需要什么权限？

展开全部

数据仓库介绍与实时数仓案例

实时计算 Flink SQL 核心功能解密

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

展开全部

还有其他疑问?