备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

为什么HDFS只适用于大型数据集而不适用于许多小文件？

为什么HDFS只适用于大型数据集而不适用于许多小文件？

展开

收起

南霸天霸南北 2019-11-07 20:07:59 5097 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

南霸天霸南北

阿里云头部开发者运营小二

这是由于NameNode的性能问题。通常，NameNode被分配了巨大的空间来存储大规模文件的元数据。元数据应该来自单个文件，以实现最佳的空间利用率和成本效益。对于小尺寸文件，NameNode不使用整个空间，这是性能优化问题。

2019-11-07 20:08:12

赞同展开评论

问答分类：

云原生大数据计算服务 MaxCompute

问答标签：

文件存储HDFS版文件文件存储HDFS版小文件文件存储HDFS版数据集

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

大佬们，flink sql写hdfs怎么控制小文件数量啊？配置了一堆参数，都没效果啊

167

1

0

为什么下载了Hadoop之后直接能够在Linux系统上运行hdfs文件呀？

1183

1

0

Linux文件系统中是怎么运行HDFS文件的呀？

932

1

0

HDFS存储的文件之间的映射关系是什么样子的呀？

812

1

0

HDFS当中文件是怎么存储的呀？

736

1

0

HDFS中登陆客户端要对文件进行操作时会先在哪里找文件的位置呀?

657

1

0

Java中HDFS为什么不能存小文件啊？

1707

1

0

flink任务取消产生的hdfs中间状态文件怎么解决呢？哪位大佬知道啊？任务取消计算结果落到hdfs

1261

1

0

我现在碰到了批处理读取数据不落盘，全读完才去sink，这个临时文件我要怎么去找，是在hdfs里面吗？

530

1

0

老哥们有没有遇到过这个问题，hdfs上文件明明存在，它报错说不存在，怎么办？

1311

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347744

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

【跨国数仓迁移最佳实践6】MaxCompute SQL语法及函数功能增强，10万条SQL转写顺利迁移

ODPS 十五周年实录 | Data + AI，MaxCompute 下一个15年的新增长引擎

【跨国数仓迁移最佳实践7】基于 MaxCompute 多租的大数据平台架构

【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert：大数据数据流写业务迁移的实践与突破

网站代码网站源代码网页源代码网页代码网站

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

请教个大数据计算MaxCompute问题，报这个错误是啥情况？

请问大家一般而言，在做技术选型的时候，会怎么选择 EMR 和 MaxCopmute ？

阿里云和腾讯云服务器哪个好！

阿里云一个CU对应多少cpu和内存?

Dataworks中MaxCompute表怎么创建唯一索引啊?

请问MaxCompute和DataWorks有啥区别？

sparksql中cte物化方式是怎样的

在大数据计算MaxCompute中，这要怎么修改字段类型？

MaxCompute中执行SQL报错ODPS-0130071

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

优酷背后的大数据秘密

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

使用 MaxCompute Studio 开发大数据应用

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《数据加工：用户画像》篇

MaxCompute/DataWorks权限问题排查建议

比自建 Hadoop 还便宜！云栖大会揭秘阿里云数加 MaxCompute

阿里云大数据计算平台的自动化、精细化运维之路

展开全部

还有其他疑问?