开发者社区> 问答> 正文

为什么Hadoop可用于大数据分析?

为什么Hadoop可用于大数据分析?

展开
收起
茶什i 2019-11-06 16:36:15 4449 0
2 条回答
写回答
取消 提交回答
  • 专注在大数据分布式计算、数据库及存储领域,拥有13+年大数据引擎、数据仓库、宽表引擎、平台研发经验,6年云智能大数据产品技术一号位经验,10年技术团队管理经验;云智能技术架构/云布道师; 研发阿里历代的大数据技术产品包括ODPS、DLA、ADB,最近五年主导宽表引擎研发、DLA、ADB湖仓研发;

    哲学的回答:因为hadoop设计就是为了解决大数据分析问题,如果不能解决就没有hadoop 实际的原因:hadoop核心分为3个层次:存储hdfs、计算mr&tez、调度yarn 不过最近随着社区及云的发展,慢慢演变为:存储HDFS换成了S3或者OSS,调度Yarn换成了k8s,再计算引擎百花齐放,比如spark、比如各家云产商提供的数据湖分析服务,bigquery,阿里云数据湖分析dla等。

    2020-03-22 11:53:58
    赞同 展开评论 打赏
  • 目前从事大数据开发,兼顾平台搭建以及实时数据分析,主要是用scala编写程序,涉及社区开源hadoop集群,emr集群,欢迎有相同兴趣的小伙伴来交流,共同进步。最近在参与flink-java实时开发。

    可以参考google的大数据三篇论文。简单来说hadoop包含hdfs跟mapreduce。 为什么hadoop能处理大数据呢, 第一,hdfs是分布式存储系统,解决了传统的存储系统的存储量的问题,将大量数据分布式存储在集群上,就是对简单储存系统很好的扩展,同时提供高可用服务。 第二,mapreduce是一个分布式计算引擎,简单比喻就是我一件事分几个人去做,而且是同时去做,每个人使用自己的资源,最终结果汇总,这样是不是比一个人处理快得多呢。

    2019-11-06 17:17:04
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
《构建Hadoop生态批流一体的实时数仓》 立即下载
零基础实现hadoop 迁移 MaxCompute 之 数据 立即下载
CIO 指南:如何在SAP软件架构中使用Hadoop 立即下载