开发者社区> 问答> 正文

离线分析和实时分析的不同场景是什么?离线分析是Hadoop的HDFS+MP来做。实时分析是用的什么?

云篆 2016-03-11 10:26:59 5403

离线分析和实时分析的不同场景是什么?离线分析是Hadoop的HDFS+MP来做。实时分析是用的什么?

分布式计算 Hadoop
分享到
取消 提交回答
全部回答(3)
  • cavin007
    2019-07-17 18:33:27

    离线计算使用hadoop,实时计算使用storm。两者区别如下:
    数据来源:Hadoop是HDFS上某个文件夹下的数据,数据量可能以TB来计;而Storm则是实时新增的某一笔数据。

    处理过程:Hadoop是Map阶段到Reduce阶段的;Storm是由用户定义处理流程,流程中可以包含多个步骤,每个步骤可以是数据源(SPOUT),也可以是处理逻辑(BOLT)。

    是否结束:Hadoop最后必须要结束;而Storm没有结束状态,到最后一步时,就停在那,直到有新数据进入时再重新开始。

    处理速度:Hadoop以处理HDFS上大量数据为目的,速度慢;Storm只要处理新增的某一笔数据即可,故此它的速度很快。

    适用场景:Hadoop主要是处理一批数据,对时效性要求不高,需要处理就提交一个JOB;而Storm主要是处理某一新增数据的,故此时效性要求高。

    0 0
  • 1984211245248939
    2019-07-17 18:33:27

    Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。

    0 0
  • 封神
    2019-07-17 18:33:27

    离线分析目前主要还是采取hadoop来分析的。
    主要分为ETL、机器学习
    ETL一般采取Hive、MR
    机器学习已经采取spark mllib

    实时分析这个主要看你的场景
    一般分为:

    • 动态的流式计算
      一般用流式框架,如:sparkStreaming、strom等
    • 静态数据数据的实时查询或者分析
      Hbase、Phoenix、kylin等

    目前E-MapReduce都直接提供或者通过引导安装这些软件的

    希望能帮助到您。

    0 0
添加回答
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题