备案控制台

smallpotato000_个人页

smallpotato000

文章

0

问答

2

视频

0

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

文章
问答
视频

暂无更多信息

正在加载, 请稍后...

暂无更多信息

提交了问题 2016-04-07

E-mapreduce服务是否支持用Python语言开发的程序
回答了问题 2019-07-17

Spark热火朝天，Hadoop何去何从？？

1 Hadoop主要针对map-reduce函数编程模型的程序，spark则比较灵活，提供多种transformation和action，可以表达更复杂的模型；2 运行在Hadoop上的map-reducec程序，基本上自己管理自己的数据（来自HDFS或者http等文件系统的文件数据，来自关系型数据库或者NoSQL型数据库的数据），而Spark则是提供了RDD这种数据结构并把RDD当作分布式数据来对待；3 Spark可以在程序中指定将特定的RDD缓存于内存还是磁盘，而Hadoop的cache机制并没有那么有效（？）至少理论上是这样；4 Hadoop通常认为适合数据是key-value这种形式的，实际中个人感觉至少要是表格形式的，而且在一次job中表格的条目之间最好逻辑不相关；而Spark则可以处理逻辑结构更加复杂的数据（例如图特别是有向无环图）；5 个人感觉Hadoop可以当做分布式计算框架来使用，而Spark更像是一种数据过滤和统计计算工具。未必准确，只是个人的感觉；6 编程语言方面，Hadoop除了Java（或者其他JVM语言）之外，理论上可以支持任何可以用stdin/stdout进行输入输出的编程语言（通过Hadoop Streaming）；而Spark仅仅支持Java/Scala/Python/R这四种。

赞1 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息