开发者社区> 问答> 正文

离线分析和实时分析的不同场景是什么?离线分析是Hadoop的HDFS+MP来做。实时分析是用的什么?

离线分析和实时分析的不同场景是什么?离线分析是Hadoop的HDFS+MP来做。实时分析是用的什么?

展开
收起
云篆 2016-03-11 10:26:59 16336 0
3 条回答
写回答
取消 提交回答
  • 离线计算使用hadoop,实时计算使用storm。两者区别如下:
    数据来源:Hadoop是HDFS上某个文件夹下的数据,数据量可能以TB来计;而Storm则是实时新增的某一笔数据。

    处理过程:Hadoop是Map阶段到Reduce阶段的;Storm是由用户定义处理流程,流程中可以包含多个步骤,每个步骤可以是数据源(SPOUT),也可以是处理逻辑(BOLT)。

    是否结束:Hadoop最后必须要结束;而Storm没有结束状态,到最后一步时,就停在那,直到有新数据进入时再重新开始。

    处理速度:Hadoop以处理HDFS上大量数据为目的,速度慢;Storm只要处理新增的某一笔数据即可,故此它的速度很快。

    适用场景:Hadoop主要是处理一批数据,对时效性要求不高,需要处理就提交一个JOB;而Storm主要是处理某一新增数据的,故此时效性要求高。

    2019-07-17 18:33:27
    赞同 展开评论 打赏
  • Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。

    2019-07-17 18:33:27
    赞同 展开评论 打赏
  • 专注在大数据分布式计算、数据库及存储领域,拥有13+年大数据引擎、数据仓库、宽表引擎、平台研发经验,6年云智能大数据产品技术一号位经验,10年技术团队管理经验;云智能技术架构/云布道师; 研发阿里历代的大数据技术产品包括ODPS、DLA、ADB,最近五年主导宽表引擎研发、DLA、ADB湖仓研发;

    离线分析目前主要还是采取hadoop来分析的。
    主要分为ETL、机器学习
    ETL一般采取Hive、MR
    机器学习已经采取spark mllib

    实时分析这个主要看你的场景
    一般分为:

    • 动态的流式计算
      一般用流式框架,如:sparkStreaming、strom等
    • 静态数据数据的实时查询或者分析
      Hbase、Phoenix、kylin等

    目前E-MapReduce都直接提供或者通过引导安装这些软件的

    希望能帮助到您。

    2019-07-17 18:33:27
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
《构建Hadoop生态批流一体的实时数仓》 立即下载
零基础实现hadoop 迁移 MaxCompute 之 数据 立即下载
CIO 指南:如何在SAP软件架构中使用Hadoop 立即下载