独家 | 一文读懂Hadoop(一):综述

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介:



随着全球经济的不断发展,大数据时代早已悄悄到来,而Hadoop又是大数据环境的基础,想入门大数据行业首先需要了解Hadoop的知识。2017年年初apache发行了Hadoop3.0,也意味着一直有一群人在对Hadoop不断的做优化,不仅如此,各个Hadoop的商业版本也有好多公司正在使用,这也印证了它的商业价值。

读者可以通过阅读“一文读懂Hadoop”系列文章,对Hadoop技术有个全面的了解,它涵盖了Hadoop官网的所有知识点,并且通俗易懂,英文不好的读者完全可以通过阅读此篇文章了解Hadoop

本期独家内容“一文读懂Hadoop”系列文章将根据先介绍Hadoop,继而分别详细介绍HDFSMAPREDUCEYARN的所有知识点的框架,分为四期内容在接下来的几天中推送。敬请关注后续内容。

1. 简介

1.1 Hadoop概述

Hadoop是一个高可靠性、高扩展性的分布式计算的开源软件。是一个能够允许大量数据在计算机集群中使用简单的编程模型进行分布式处理的框架。其设计的规模可从单一的服务器到上千台机器上,每一个均可提供局部运算和存储功能。而不是依靠于硬件以支持高效性。

Hadoop的创始人是Doug cutting,在Yahoo就职期间开发了Hadoop项目,主要原因是此人对搜索引擎的研究比较感兴趣,当时用的技术是lucenenutch

1.2 Lucene&Nutch

  • Lucene

是一个开源的全文检索引擎工具包,它不是一个完整的全文搜索引擎,而是一个全文检索引擎的一个架构,提供了完整的查询引擎与搜索引擎,部分文本分析引擎,lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便在目标系统中实现全文检索功能,或者以此为基础,建立完整的全文检索引擎。

  • Nutch

Nutch是一个开源java实现的搜索引擎,它提供了我们自己运行搜索引擎所需的全部工具,包括全文检索与web爬虫。

1.3 Hadoop的产生

Doug cutting在用lucenenutch的时候遇到了数据与计算难题。主要有两方面的问题,一方面爬取的大量页面如何存储,另一方面就是搜索算法还有待优化,因此他用了2年的时间实现了DFSMapReduce,一个微缩版的Nutch2005hadoop作为lucene的子项目的nutch的一部分,正式引入Apache基金会。20063月份MapReduceNutch Distributed File System(NDFS)分别被纳入Hadoop项目。

1.4 Hadoop项目的思想来源

Hadoop项目的思想来源于谷歌的3篇论文

  • GFS->HDFS

  • Map-Reduce->Map-Reduce

  • Bigtable->Hbase

1.5 Hadoop的组成

  • Hadoop Distributed File System (HDFS)分布式文件系统

一个提供高吞吐量来访问应用程序的数据的分布式文件系统。

  • Hadoop YARN

一个对作业进行调度和对集群资源管理的框架。

  • Hadoop MapReduce

yarn为基础的大型数据集并行处理系统。

2. 三种运行模式

2.1 单机(本地)模式

这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。

2.2 伪分布式模式

这种模式在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类节点,伪分布式(Pseudo)适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行。

2.3 完全分布式模式

这种模式通常被用于生产环境,使用N台主机组成一个Hadoop集群,Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机,Datanode运行的主机,以及resourcemanager运行的主机等。在分布式环境下,主节点和从节点会分开。

3. 命令指南

3.1 概述

所有Hadoop命令和子项目都遵循相同的基本结构:

用法:shellcommand [SHELL_OPTIONS] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]



3.2 shell选项


所有shell命令都将接受一组公共选项。对于某些命令,将忽略这些选项。例如,对仅在单个主机上执行的命令传递 --hostnames将被忽略。



3.3 通用选项

许多子命令遵循一组常用的配置选项来更改其行为:

3.4 hadoop通用命令

所有这些命令都是从hadoop shell命令执行的。

3.4.1 用户命令

hadoop集群的用户有用的命令。

  • Archive

Hadoop档案是一个特殊格式的档案,一个hadoop档案映射到文件系统的一个目录,hadoop档案的扩展名是.harhadoop Archive目录包含元数据文件( _index _masterindex)和数据文件(part-*),这个_index文件包含了所有文件的名称和他对应part文件的位置。

  • checknative

此命令检查Hadoop本地代码的可用性。

  • classpath

打印获取Hadoop jar和所需库所需的类路径。如果无参数调用,则打印由命令脚本设置的类路径,这可能在类路径条目中包含通配符。其他选项在通配符扩展后打印类路径或将类路径写入jar文件的清单。后者在不能使用通配符且扩展的类路径超过支持的最大命令行长度的环境中非常有用。

  • credential

该命令在凭证提供者内部管理凭证及密码。HadoopCredentialProvider API支持应用程序拆分,并且要求拆分后的应用 如何储存所需的密码。为了指明一个Provider的位置和类型,需要在core-site.xml添加hadoop.security.credential.provider. path配置项,或者通过指令中-provider命令选项进行设置。Provider路径是一串以逗号分割的URL字符串。这些字符串会说明Provider的类型和位置。

  • distch

一次更改许多文件的所有权和权限。

  • distcp

递归的拷贝文件或者目录。

  • dtutil

在凭据文件中获取和管理hadoop委托令牌的实用程序。它旨在替换更简单的命令fetchdt。有多个子命令,每个都有自己的标志和选项。对于写出文件的每个子命令,-format选项将指定要使用的内部格式。java是与fetchdt匹配的旧格式。默认值为protobuf。对于连接到服务的每个子命令,提供方便标志以指定用于认证的kerberos主体名称和keytab文件。

  • fs

hdfs脚本的dfs类似。

  • gridmix

Hadoop Gridmix是针对hadoop系统的基准测试程序。它具备评测大规模数据处理系统所需的各个功能模块,包括:产生数据,生成并提交作业,统计作业完成时间等。

  • jar

运行一个jar文件。

  • jnipath

打印计算java.library.path

  • kerbname

通过auth_to_local规则将命名主体转换为Hadoop用户名。

  • key

通过KeyProvider管理密钥。

  • kms

运行KMS,密钥管理服务器。

  • trace

查看和修改Hadoop跟踪设置。

  • version

打印版本。

  • classname

运行名为classname的类。类必须是包的一部分。

  • envvars

显示Hadoop环境变量。

3.4.2 管理命令

  • daemonlog

获取/设置由守护程序中的限定类名称标识的日志的日志级别。默认情况下,该命令发送HTTP请求,但可以通过使用参数-protocol https发送HTTPS请求来覆盖此请求。

3.4.3 文件

etc/hadoop/hadoop-env.sh

此文件存储所有Hadoop shell命令使用的全局设置。

etc/hadoop-user-functions.sh

此文件允许高级用户覆盖某些shell功能。

/ .hadooprc

这存储了个人用户的个人环境。它在hadoop-env.shhadoop-user-functions.sh文件之后处理,并且可以包含相同的设置。

4. UNIX shell指南

4.1 重要的最终用户环境变量

Apache Hadoop有许多控制软件各个方面的环境变量。(请参阅hadoop-env.sh和相关文件。)其中一些环境变量专用于帮助最终用户管理其运行时。

4.1.1 HADOOP_CLIENT_OPTS

此环境变量用于所有最终用户,非守护程序操作。它可以用于通过系统属性定义设置任何Java选项以及任何Apache Hadoop选项。

4.1.2 (command)_(subcommand)_OPTS

也可以在每个子命令的基础上设置选项。这允许为特定情况创建特殊选项。模式的第一部分是正在使用的命令,但是都是大写的。命令的第二部分是正在使用的子命令。然后最后跟着字符串_OPT

4.1.3 HADOOP_CLASSPATH

Apache Hadoop脚本能够通过设置此环境变量将更多内容注入正在运行的命令的类路径中。它是目录、文件或通配符位置的冒号分隔列表。

4.1.4 变量的自动设置

如果用户有一组通用的设置,可以将它们放在$ {HOME}/.hadoop-env文件中。始终读取此文件以初始化并覆盖用户可能想要自定义的任何变量。它使用bash语法,类似于.bashrc文件。

4.2 管理员环境

除了各种XML文件之外,管理员还有两个关键功能可以在使用Unix Shell时配置。

4.2.1 (command)_(subcommand)_OPTS

最重要的是控制守护进程如何工作的一系列_OPTS变量。这些变量应包含这些守护程序的所有相关设置。

4.2.2 (command)_(subcommand)_USER

Apache Hadoop提供了一种方法来执行用户检查每个子命令。虽然这种方法很容易规避,不应被视为安全特征,但它确实提供了防止事故的机制。例如,设置HDFS_NAMENODE_USER = hdfs将使hdfs namenodehdfs –daemon start namenode命令通过检查USER环境变量来验证运行命令的用户是否为hdfs用户。这也适用于非守护进程。在允许执行hadoop distcp命令之前,设置HADOOP_DISTCP_USER = jane将验证USER是否设置为jane

4.3 开发者和高级管理员环境

4.3.1 Shell Profiles

Apache Hadoop允许第三方通过各种可插拔接口轻松添加新功能。这包括一个shell代码子系统,可以方便地将必要的内容注入基本安装。这个功能的核心是shell配置文件的概念。Shell配置文件是可以执行诸如向类路径添加jar,配置Java系统属性等等的shell代码片段。

4.3.2 Shell API

Apache Hadoopshell代码具有一个函数库,供管理员和开发人员使用以帮助他们的配置和高级特性管理。

4.3.3 用户级API访问

除了.hadoop-env,它允许单个用户重写hadoop-env.sh,用户的也可以使用.hadooprc。这是在配置Apache Hadoop shell环境后调用的,并允许完整的shell API函数调用。

4.3.4 动态子命令

利用Shell API,第三方可以将其自己的子命令添加到主Hadoop shell脚本(hadoophdfsmapredyarn)。在执行子命令之前,主脚本将检查是否存在(scriptname_subcommand_(子命令)函数。该函数将参数设置为所有剩余的命令行参数。

5. 应用场景


美国著名科技博客GigaOM的专栏作家Derrick Harris跟踪云计算和Hadoop技术已有多年时间,在一篇文章中总结了10Hadoop的应用场景,下面分享给大家:

  • 在线旅游目前全球范围内80%的在线旅游网站都是在使用Cloudera公司提供的Hadoop发行版,其中SearchBI网站曾经报道过的Expedia也在其中。

  • 移动数据Cloudera运营总监称,美国有70%的智能手机数据服务背后都是由Hadoop来支撑的,也就是说,包括数据的存储以及无线运营商的数据处理等,都是在利用Hadoop技术。

  • 电子商务这一场景应该是非常确定的,eBay就是最大的实践者之一。国内的电商在Hadoop技术上也是储备颇为雄厚的。

  • 能源开采美国Chevron公司是全美第二大石油公司,他们的IT部门主管介绍了Chevron使用Hadoop的经验,他们利用Hadoop进行数据的收集和处理,其中这些数据是海洋的地震数据,以便于他们找到油矿的位置。

  • 节能另外一家能源服务商Opower也在使用Hadoop,为消费者提供节约电费的服务,其中对用户电费单进行了预测分析。

  • 基础架构管理这是一个非常基础的应用场景,用户可以用Hadoop从服务器、交换机以及其他的设备中收集并分析数据。

  • 图像处理创业公司Skybox Imaging使用Hadoop来存储并处理图片数据,从卫星中拍摄的高清图像中探测地理变化。

  • 诈骗检测这个场景用户接触的比较少,一般金融服务或者政府机构会用到。利用Hadoop来存储所有的客户交易数据,包括一些非结构化的数据,能够帮助机构发现客户的异常活动,预防欺诈行为。

  • IT安全除企业IT基础机构的管理之外,Hadoop还可以用来处理机器生成数据以便甄别来自恶意软件或者网络中的攻击。

  • 医疗保健医疗行业也会用到Hadoop,像IBMWatson就会使用Hadoop集群作为其服务的基础,包括语义分析等高级分析技术等。医疗机构可以利用语义分析为患者提供医护人员,并协助医生更好地为患者进行诊断。

主要的场景分类如下:

  • 大数据量存储分布式存储(各种云盘,百度、360还有云平台均有hadoop应用)

  • 日志处理Hadoop擅长这个

  • 海量计算并行计算

  • ETL:数据抽取到oraclemysqlDB2mongdb及主流数据库

  • 使用HBase做数据分析用扩展性应对大量读写操作—Facebook构建了基于HBase的实时数据分析系统

  • 机器学习比如Apache Mahout项目(常见领域:协作筛选、集群、归类)

  • 搜索引擎hadoop + lucene实现

  • 数据挖掘目前比较流行的广告推荐

  • 大量地从文件中顺序读。HDFS对顺序读进行了优化,代价是对于随机的访问负载较高。

  • 用户行为特征建模

  • 个性化广告推荐

  • 智能仪器推荐

6. 资源推荐

6.1 网站

我推荐给大家的是HADOOP官网:http://hadoop.apache.org/,因为官网是一项技术的第一手信息来源,并且可以最全面及最直接的了解此技术,如果有英文不好的,可以使用谷歌的网页翻译,正确率在90%以上,对于学习一项技术来说,还是可以的。或者大家可以访问http://hadoop.apache.org/docs/r1.0.4/cn/ 这个网址,看一下1.0的中文版,虽然现在已经到3.0,但是对于对MAPREDUCE的理解,帮助还是很大的。

6.2 书籍

  • HADOOP权威指南》

这本书很全面的介绍了hadoop,本书是将作者Tom White的英文原版书籍进行了翻译,作者从2006年起就开始为hadoop做贡献,是hadoop开发社区受人尊敬的资深成员,精通hadoop技术的若干领域, 由他写出的hadoop书籍,通俗易懂,适合入门hadoop

  • hadoop技术内幕》

之所以给大家推荐《hadoop技术内幕》是因为此书的作者是董西成,他是Hadoop领域资深的实践者,他将hadoop的技术分成3部分:MapReduceHDFSYARN,每部分都进行了详细的阐述。

6.3 网课

  • 极客学院网课

笔者将所有网上的视频与网课浏览了一遍,大部分的视频都有些老。极客学院的网课值得推荐。

http://www.jikexueyuan.com/course/hadoop/

  • 尚学堂hadoop视频分享

鉴于网上的视频资料大多都有些老,笔者将在尚学堂学习的视频分享给大家。

http://pan.baidu.com/s/1qYkDqZq

6.4 社区

  • hadoop技术社区

这个社区中涵盖了有关hadoop的资讯、博客、论坛、hadoop资料下载、及hadoop的有关的活动。

http://hadoop.csdn.net/

7. 进一步学习

7.1 论文归纳

如下是Google大数据三篇著名论文的中文版,是比较权威的论文资料。在这里分享给读者。

  • Google File System中文版

http://blog.bizcloudsoft.com/wp-content/uploads/Google-File-System%E4%B8%AD%E6%96%87%E7%89%88\_1.0.pdf

  • Google Bigtable中文版

http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable%E4%B8%AD%E6%96%87%E7%89%88\_1.0.pdf

  • Google MapReduce中文版

http://blog.bizcloudsoft.com/wp-content/uploads/Google-MapReduce%E4%B8%AD%E6%96%87%E7%89%88\_1.0.pdf

7.2 优秀博文

  • 董的博文

笔者之所以首先推荐董的博客是由于他是hadoop技术内幕的作者、资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计与研发。对hadoop有自己独到的见解。网址为:http://dongxicheng.org/

  • bigdata_player的博文

如果有刚入门hadoop的读者,可以读一下bigdata_player的三篇博文:

“Hadoop 基础知识---HDFS, 网址为:http://blog.csdn.net/bigdata\_player/article/details/51932437

“Hadoop 基础知识---MapReduce,网址为:http://blog.csdn.net/bigdata\_player/article/details/52050400

“Hadoop基础知识---YARN原理简述,网址为:http://blog.csdn.net/bigdata\_player/article/details/52057176

  • 既认准这条路,又何必在意要走多久的博文

在初学hadoop的时候,免不了要去官网下载hadoop的安装包,而下载下来的安装包无法直接使用,需要手动去编译。读者可以参照此博文来编译hadoop的包。网址为:http://blog.csdn.net/linlinv3/article/details/49358217



原文发布时间为:2017-07-24

本文作者:宋莹

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 分布式计算 大数据
hadoop体系结构杂谈
hadoop体系结构杂谈 今天跟一个朋友在讨论hadoop体系架构,从当下流行的Hadoop+HDFS+MapReduce+Hbase+Pig+Hive+Spark+Storm开始一直讲到HDFS的底层实现,MapReduce的模型计算,到一个云盘如何实现,再到Google分布式史上那最伟大的三篇文章。
1887 0
|
7月前
|
分布式计算 Hadoop 大数据
探索大数据技术:Hadoop与Spark的奥秘之旅
【5月更文挑战第28天】本文探讨了大数据技术中的Hadoop和Spark,Hadoop作为分布式系统基础架构,通过HDFS和MapReduce处理大规模数据,适用于搜索引擎等场景。Spark是快速数据处理引擎,采用内存计算和DAG模型,适用于实时推荐和机器学习。两者各有优势,未来将继续发展和完善,助力大数据时代的发展。
|
存储 SQL 分布式计算
Hadoop框架概论
集群:集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份的。其中重点的包括:Kafka、Spark、Flink、Hive、HBase、Zookeeper、Yarn、HDFS、MapReduce、集群模式主要用于生产环境部署,会使用N台主机组成一个Hadoop集群,这种部署模式下,主节点和从节点会分开部署在不同的机器上。开源社区版:指由Apache软件基金会维护的版本,是官方维护的版本体系,版本丰富,兼容性差。
195 0
|
存储 人工智能 分布式计算
初识Hadoop之概念认知篇
初识Hadoop之概念认知篇
192 0
初识Hadoop之概念认知篇
|
存储 SQL 分布式计算
Hadoop体系结构杂谈
Hadoop体系结构杂谈
144 0
Hadoop体系结构杂谈
|
分布式计算 大数据 Hadoop
|
存储 分布式计算 安全
阅读笔记-Hadoop入门实践
ASF:阿里软件开发平台服务框架SIP:服务集成平台BEA:应用基础结构软件公司分布式计算的应用场景:日志分析、索引建立Threshold:是一款IOS平台的应用。随时随地帮您监控行动数据使用奘况 无论是使用无限数据方案或是有限数据方案, Threshold 可以帮助您随时掌握最新数据使用状态, 提供客制化警示设定, 还可以设立一个您专属的行动数据区域, 以确保您不会被额外收费。
1345 0