开发者社区> 问答> 正文

Spark热火朝天,Hadoop何去何从??

已解决

刚开始学习Hadoop,就听说Spark会取代Hadoop。噩耗啊!为什么??为什么一切来的那么快???互联网新技术对于初学者来说是机遇还是盲从??

展开
收起
yiwenseo.com 2016-02-27 17:51:15 5220 0
6 条回答
写回答
取消 提交回答
  • 搞过开发,玩过小机、AIX,目前在阿里云从事云产品技术支持,专注于云计算相关的系统运维。奉行“上天给了人两只手,两只眼,而只有一张嘴。就是要让我们多动手,多观察,少耍嘴皮。”
    采纳回答

    学习技术并不一定需要学习最新的。
    Hadoop目前相对Spark有更成熟的商业环境和社区、文档等各方面支持。

    底层很多技术理论都是想通的,建议你先学习Hadoop入门,即便后续Spark要取代Hadoop,届时过度过去也不是难事。

    2019-07-17 18:31:14
    赞同 1 展开评论 打赏
  • 金融IT技术人员

    Spark相对于Hadoop的优势,在任务调度的开销方面:传统的MR系统,如Hadoop 是为了运行长达数小时的批量作业而设计的,在某些极端情况下,提交一个任务的延迟非常高。spark采用了事件驱动的类库 akka来启动任务,可以避免进程或线程启动,以及切换开销。

    2019-07-17 18:31:14
    赞同 2 展开评论 打赏
  • 专注在大数据分布式计算、数据库及存储领域,拥有13+年大数据引擎、数据仓库、宽表引擎、平台研发经验,6年云智能大数据产品技术一号位经验,10年技术团队管理经验;云智能技术架构/云布道师; 研发阿里历代的大数据技术产品包括ODPS、DLA、ADB,最近五年主导宽表引擎研发、DLA、ADB湖仓研发;

    spark现在很火,但是还不是分布式的全部的。
    建议初学者学习一种学习能力,掌握这种元的能力。
    对于hadoop重点是学习一种分布式的思想,可以分布式去思考一些问题。
    至于api层面的一些变化,spark也是在hadoop的基础上优化的,flink也可以认为是spark基础上优化的。
    祝福LZ

    2019-07-17 18:31:14
    赞同 展开评论 打赏
  • 1 Hadoop主要针对map-reduce函数编程模型的程序,spark则比较灵活,提供多种transformation和action,可以表达更复杂的模型;
    2 运行在Hadoop上的map-reducec程序,基本上自己管理自己的数据(来自HDFS或者http等文件系统的文件数据,来自关系型数据库或者NoSQL型数据库的数据),而Spark则是提供了RDD这种数据结构并把RDD当作分布式数据来对待;
    3 Spark可以在程序中指定将特定的RDD缓存于内存还是磁盘,而Hadoop的cache机制并没有那么有效(?)至少理论上是这样;
    4 Hadoop通常认为适合数据是key-value这种形式的,实际中个人感觉至少要是表格形式的,而且在一次job中表格的条目之间最好逻辑不相关;而Spark则可以处理逻辑结构更加复杂的数据(例如图特别是有向无环图);
    5 个人感觉Hadoop可以当做分布式计算框架来使用,而Spark更像是一种数据过滤和统计计算工具。未必准确,只是个人的感觉;
    6 编程语言方面,Hadoop除了Java(或者其他JVM语言)之外,理论上可以支持任何可以用stdin/stdout进行输入输出的编程语言(通过Hadoop Streaming);而Spark仅仅支持Java/Scala/Python/R这四种。

    2019-07-17 18:31:14
    赞同 1 展开评论 打赏
  • 建议楼主可以以Hadoop为基础然后进一步了解spark,特别可以着重的掌握spark与Hadoop之间的区别以及这项技术产生的原因,这样更加帮助你掌握大数据的处理数据的方式和架构。

    2019-07-17 18:31:14
    赞同 1 展开评论 打赏
  • 不是刚开始学习么?加油、统统拿下。

    2019-07-17 18:31:14
    赞同 1 展开评论 打赏
滑动查看更多
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
《构建Hadoop生态批流一体的实时数仓》 立即下载
零基础实现hadoop 迁移 MaxCompute 之 数据 立即下载
CIO 指南:如何在SAP软件架构中使用Hadoop 立即下载

相关实验场景

更多