文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

addsource里指定从文件读取，可以在文件更新后读取到最新内容，但是每次好像都是全量读取，能不能

addsource里指定从文件读取，可以在文件更新后读取到最新内容，但是每次好像都是全量读取，能不能增量读取呢？

展开

收起

游客3oewgrzrf6o5c 2022-07-25 10:31:32 388 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

行十三

云端行者觅知音，技术前沿我独行。前言探索无边界，阿里风光引我情。
在使用addsource指令从文件读取数据时，默认情况下是全量读取文件的内容。这意味着每次执行addsource指令时，都会重新读取整个文件，并将其内容加载到数据源中。

如果您希望实现增量读取文件的功能，可以考虑以下几种方法：
1. 手动追加数据：在文件中追加新的数据，而不是覆盖整个文件。这样，每次执行addsource指令时，只需要读取文件中新增的部分，并将其加载到数据源中。
2. 使用增量文件：将文件的增量部分保存在单独的文件中，例如使用时间戳或版本号来标识增量文件。每次执行addsource指令时，只需要读取增量文件，并将其内容加载到数据源中。
3. 使用数据库或消息队列：将文件的内容存储在数据库或消息队列中，而不是直接从文件读取。每次执行addsource指令时，只需要读取数据库或消息队列中新增的数据，并将其加载到数据源中。
这些方法可以根据您的具体需求和系统架构进行调整和扩展。
2023-07-22 22:44:49

赞同展开评论

问答分类：

实时计算 Flink版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

136695

16

0

#支付宝身份验证失败（人气大爆发，一会再试试）？

11240

2

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

268622

11

0

#支付宝授权提示请在支付宝客户端打开链接

18912

19

0

购买阿里国外的云服务器是否可以访问谷歌？

87438

49

0

this xml file does not appear to have any style in

55068

11

0

今天刚刚买的阿里云香港服务器，国内无法访问，坑啊

35737

17

0

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

3244

18

0

轻量级应用服务器端口问题（打不开）

32389

21

0

LoRa的网络覆盖能力范围是怎么样的？

4299

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

Apache Paimon多模态数据湖实践：从结构化到非结构化的技术演进

Fluss在阿里双11万亿规模场景下的落地实践

Apache Flink Agents 0.2.0 发布公告

基于Flink CDC的企业级日志实时入湖入流解决方案

Flink 实时计算 x SLS 存储下推：阿里云 OpenAPI 网关监控平台实践

热门讨论

热门文章

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

Flink有2023 Flink Forward Asia 资料下载地址吗?

有用flink cdc同步mysql到hive这样搞过的源码吗?

flinkcdc在IDEA运行正常，打包就报错

大佬们，请教下，Flink CDC2.4.0版本的mysql cdc，怎么设置时区"？

Flink1.10 python API 对流式处理的支持度如何，能直接用于生产吗？

在Flink CDC中，直接将我生成的application会话kill掉了,有人遇到过吗？

提交flink命令后运行时会优先加载 lib下面的jar包吗？严重怀疑平台提供的cdc不是2.1

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

阿里云实时计算产品案例&解决方案汇总

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

Flink Checkpoint 问题排查实用指南

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

展开全部

还有其他疑问?