文档备案控制台

开发者社区问答正文

如何使用flink将增量数据写入配置单元

"我使用flink 1.6，我知道我可以使用自定义接收器和hive jdbc来编写hive，或者使用JDBCAppendTableSink，但它仍然使用jdbc。问题是hive jdbc不支持batchExecute方法。我认为它会很慢。

然后我寻求另一种方式，我用writeAsText方法将数据集写入hdfs，然后从hdfs创建hive表。但是仍然存在一个问题：如何附加增量数据。 WriteMode的api是：

Enum FileSystem.WriteMode
枚举常量和描述
NO_OVERWRITE
仅当该路径上不存在任何文件时才创建目标文件。
OVERWRITE
无论任何现有文件或目录如何，都会创建新的目标文件。
例如，第一批，我将9月的数据写入配置单元，然后我获取10月的数据，我想追加它。

但是如果我对同一个hdfs文件使用OVERWRITE，9月的数据将不再存在，如果我使用NO_OVERWRITE，我必须将它写入新的hdfs文件，然后是新的hive表，我们需要它们在同一个hive表中。我不知道如何将2个hdfs文件合并到一个配置单元表中。
那么如何使用flink将增量数据写入hive？"

展开

收起

flink小助手 2018-11-28 16:04:56 3843 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

flink小助手

flink小助手会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关flink的问题及回答。

"我想默认模式是将（text，avro，parquett）-files写入HDFS并在该目录上定义外部hive表。在那里，如果您有一个文件或多个文件并不重要。但是您很可能必须定期修复此表（msck修复表。;）。这将更新元数据，新文件将可用。

对于更大量的数据，我建议对表进行分区并根据需要添加分区（这篇博文可能会给你一个提示：https：//resources.zaloni.com/blog/partitioning-in-hive）"

2019-07-17 23:16:49

赞同展开评论

问答分类：

SQL Java 数据库连接 API HIVE 流计算实时计算 Flink版

问答标签：

实时计算 Flink版数据实时计算 Flink版增量实时计算 Flink版配置实时计算 Flink版增量数据实时计算 Flink版增量配置

问答地址：

开发者社区 > 数据库 > 问答

相关问答

Flink增量快照有什么优势

138

1

0

Flink cdc 3.0是不是不支持增量？

314

3

0

Flink CDC全量和增量同步数据如何保证数据的一致性

1759

5

0

Flink CDC OceanBase Connector 如何处理全量数据和增量数据？

168

1

0

为什么选择Flink和Hudi作为增量化方案的核心组件？

155

1

0

Flink 1.15 如何通过原生增量 Savepoint 解决 Savepoint 性能较差的问题

148

1

0

使用Flink cdc 任务的检查点设置为增量的，看checkpoint确实是一增量的方式在保存吗？

124

0

0

Flink CDC如何实现全增量一体化数据集成？

199

1

0

在Flink CDC中oceanbase oracle initial模式全量转增量读取报错怎么办？

398

7

0

Flink CDC里使用initial模式, 转增量之后，存量数据会丢吗？

152

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

OpenClaw Gateway Token 获取？

阿里云千问Token价格怎么收费？

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

相关文章

Java 异常体系：从底层实现到性能优化的核心真相

OpenClaw保姆级图文教程！阿里云/Win11/MacOS/Linux部署+百炼API配置+5款生态工具深度测评

无Token限制！OpenClaw 零基础保姆级部署（阿里云+本地）+Ollama本地大模型对接+百炼API配置指南

OpenClaw （阿里云/本地）零基础部署步骤+本地大模型及百炼API配置+常见问题一站式解答

保姆级教程：OpenClaw部署步骤（阿里云/Win11/MacOS/Linux）+大模型智谱/百炼API配置+钉钉集成+FAQ

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

数据守护：防勒索攻击数据保障

还有其他疑问?