文档备案控制台

开发者社区问答正文

大佬们，请教下structed streaming 时 checkpoint 频繁在HDFS写小文件,这个一般是怎么处理的？

大佬们，请教下structed streaming 时 checkpoint 频繁在HDFS写小文件,这个一般是怎么处理的？

展开

收起

社区小助手 2019-03-28 14:29:58 3184 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

被纵养的懒猫

简单一致性模型大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式。一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题和并使高吞吐量的数据访问变得可能。一个Map-Reduce程序或者网络爬虫程序都可以完美地适合这个模型。移动计算比移动数据更经济在靠近计算数据所存储的位置来进行计算是最理想的状态，尤其是在数据集特别巨大的时候。这样消除了网络的拥堵，提高了系统的整体吞吐量。一个假定就是迁移计算到离数据更近的位置比将数据移动到程序运行更近的位置要更好。HDFS提供了接口，来让程序将自己移动到离数据存储更近的位置。异构软硬件平台间的可移植性 HDFS被设计成可以简便地实现平台间的迁移，这将推动需要大数据集的应用更广泛地采用HDFS作为平台。

答案来源于网络

2019-09-27 19:45:02

赞同展开评论

问答分类：

流计算

问答标签：

文件存储HDFS版文件 checkpoint文件存储HDFS版文件存储HDFS版小文件文件存储HDFS版checkpoint checkpoint文件存储HDFS版小文件

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Flink里打包好的jar包上传运行，checkpoint在代码里可以设置oss-hdfs的地址么？

413

3

0

Checkpoint Replicate Service 是如何实现跨 HDFS 集群的副本制作的？

96

1

0

Flink独立集群与hdfs集群不在一起，flink如何配置checkpoint目录为hdfs？

208

1

0

Flink有没有遇到过打checkpoint的时候，遇到写hdfs的错误然后一直卡死，怎么回事？

592

3

0

大佬们，flink sql写hdfs怎么控制小文件数量啊？配置了一堆参数，都没效果啊

209

1

0

问一下大佬们，我们最近flink任务从checkpoint（hdfs存储)恢复，发现恢复信息里还尝试

616

2

0

为什么下载了Hadoop之后直接能够在Linux系统上运行hdfs文件呀？

1215

1

0

Linux文件系统中是怎么运行HDFS文件的呀？

950

1

0

HDFS存储的文件之间的映射关系是什么样子的呀？

842

1

0

HDFS当中文件是怎么存储的呀？

758

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

copaw安装后选择ollma为啥报错不能安装相关模型？

建议通义灵码参考字节的trae ，可以自主选择一些开源的模型

云端部署coclaw报错

相关文章

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

Flink 实时计算 x SLS 存储下推：阿里云 OpenAPI 网关监控平台实践

9B 上端侧：多模态实时对话，难点其实在“流”

文本字符数统计在线工具核心JS实现

什么是批处理？一文搞清批处理和流处理的区别

还有其他疑问?