好程序员大数据培训分享大数据两大核心技术-阿里云开发者社区

开发者社区> 好程序员> 正文

好程序员大数据培训分享大数据两大核心技术

简介:
+关注继续查看

  好程序员大数据培训分享大数据两大核心技术,今天小编给大家先分享一下大数据的两大核心技术,知己知彼才能百战不殆,学习大数据技术也是一样的道理,要先有一个清晰的了解,才能确保自己全身心的投入学习。
  Hadoop是什么?
  Hadoop在2006年开始成为雅虎项目,随后晋升为顶级Apache开源项目。它是一种通用的分布式系统基础架构,具有多个组件:Hadoop分布式文件系统(HDFS),它将文件以Hadoop本机格式存储并在集群中并行化; YARN,协调应用程序运行时的调度程序; MapReduce,这是实际并行处理数据的算法。Hadoop使用Java编程语言构建,其上的应用程序也可以使用其他语言编写。通过一个Thrift客户端,用户可以编写MapReduce或者Python代码。
  除了这些基本组件外,Hadoop还包括Sqoop,它将关系数据移入HDFS; Hive,一种类似SQL的接口,允许用户在HDFS上运行查询; Mahout,机器学习。除了将HDFS用于文件存储之外,Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。
  它可以通过Apache发行版开源,也可以通过Cloudera(规模和范围最大的Hadoop供应商),MapR或HortonWorks等厂商提供。
  Spark是什么?
  Spark是一个较新的项目,在2012年诞生在加州大学伯克利分校的AMPLab。它也是一个顶级Apache项目,专注于在集群中并行处理数据,一大区别在于它在内存中运行。
  类似于Hadoop读取和写入文件到HDFS的概念,Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行,Hadoop集群可用作数据源,也可与Mesos一起运行。在后一种情况下,Mesos主站将取代Spark主站或YARN以进行调度。
  Spark是围绕Spark Core构建的,Spark Core是驱动调度,优化和RDD抽象的引擎,并将Spark连接到正确的文件系统(HDFS,S3,RDBM或Elasticsearch)。Spark Core上还运行了几个库,包括Spark SQL,允许用户在分布式数据集上运行类似SQL的命令,用于机器学习的MLLib,用于解决图形问题的GraphX以及允许输入连续流式日志数据的Streaming。
  Spark有几个API。原始界面是用Scala编写的,并且由于大量数据科学家的使用,还添加了Python和R接口。Java是编写Spark作业的另一种选择。
  Databricks是由Spark创始人Matei Zaharia创立的公司,现在负责    Spark开发并为客户提供Spark分销。
  Hadoop和spark两个大数据的核心技术的基础讲解在此就顺应结束了,想要提升自己的技术,想要突破自己的技术领域,欢迎撩小编,已经为你准备好了全套的大数据学习资料!

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
分享7家典型大数据公司
          Skybox、Prismatic、SAGA、Zest Finance、Expect Labs、Decide、Trifacta这7家公司告诉了我们:大数据绝不仅仅是互联网。 【1】 Skybox  http://www.skyboximaging.com/ 大数据绝不仅仅是互联网!这家位于美国的公司利用便宜的低轨卫星和普通用户生活照片分享等数据开展基于地理位置的服务。
1208 0
《大数据原理:复杂信息的准备、共享和分析》一一2.1 背景
本节书摘来自华章出版社《大数据原理:复杂信息的准备、共享和分析》一 书中的第2章,第2.1节,作者:[美] 朱尔斯 J. 伯曼(Jules J. Berman)著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1143 0
经历多个数据科学岗位后,对于数据科学面试他分享了以下求职心得
作者拥有多份数据科学求职的经验,现在分享给各位小伙伴。
5570 0
解密阿里中间件女程序员以夕、钰佩代码诗!
2018年已过,我们迎来了新的一年,在机遇与挑战同在的环境下,我们更应勤于学习。为了方便大家学习,小编为大家盘点了2018年中间件云栖号最火的干货文章分享给大家,让我们在新的一年里共同学习和成长! 阿里中间件团队 云栖号简介: 中间件(middleware)是基础软件的一大类,属于可复用软件的范畴。
4227 0
每个程序员都必须知道的8种通用数据结构
数据结构是一种特殊的组织和存储数据的方式,可以使我们可以更高效地对存储的数据执行操作。数据结构在计算机科学和软件工程领域具有广泛而多样的用途。
675 0
+关注
333
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载