哲学的回答:因为hadoop设计就是为了解决大数据分析问题,如果不能解决就没有hadoop 实际的原因:hadoop核心分为3个层次:存储hdfs、计算mr&tez、调度yarn 不过最近随着社区及云的发展,慢慢演变为:存储HDFS换成了S3或者OSS,调度Yarn换成了k8s,再计算引擎百花齐放,比如spark、比如各家云产商提供的数据湖分析服务,bigquery,阿里云数据湖分析dla等。
可以参考google的大数据三篇论文。简单来说hadoop包含hdfs跟mapreduce。 为什么hadoop能处理大数据呢, 第一,hdfs是分布式存储系统,解决了传统的存储系统的存储量的问题,将大量数据分布式存储在集群上,就是对简单储存系统很好的扩展,同时提供高可用服务。 第二,mapreduce是一个分布式计算引擎,简单比喻就是我一件事分几个人去做,而且是同时去做,每个人使用自己的资源,最终结果汇总,这样是不是比一个人处理快得多呢。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。