smallpotato000_个人页

个人头像照片 smallpotato000
个人头像照片
0
2
0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息
正在加载, 请稍后...
暂无更多信息
  • 回答了问题 2019-07-17

    Spark热火朝天,Hadoop何去何从??

    1 Hadoop主要针对map-reduce函数编程模型的程序,spark则比较灵活,提供多种transformation和action,可以表达更复杂的模型;
    2 运行在Hadoop上的map-reducec程序,基本上自己管理自己的数据(来自HDFS或者http等文件系统的文件数据,来自关系型数据库或者NoSQL型数据库的数据),而Spark则是提供了RDD这种数据结构并把RDD当作分布式数据来对待;
    3 Spark可以在程序中指定将特定的RDD缓存于内存还是磁盘,而Hadoop的cache机制并没有那么有效(?)至少理论上是这样;
    4 Hadoop通常认为适合数据是key-value这种形式的,实际中个人感觉至少要是表格形式的,而且在一次job中表格的条目之间最好逻辑不相关;而Spark则可以处理逻辑结构更加复杂的数据(例如图特别是有向无环图);
    5 个人感觉Hadoop可以当做分布式计算框架来使用,而Spark更像是一种数据过滤和统计计算工具。未必准确,只是个人的感觉;
    6 编程语言方面,Hadoop除了Java(或者其他JVM语言)之外,理论上可以支持任何可以用stdin/stdout进行输入输出的编程语言(通过Hadoop Streaming);而Spark仅仅支持Java/Scala/Python/R这四种。

    踩0 评论0
  • 提交了问题 2016-04-07

    E-mapreduce服务是否支持用Python语言开发的程序

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息