【Hadoop学习笔记】——Hadoop基础

简介: 当前时代是数据爆炸的时代,全球各个网站、电子设备等都在源源不断地产生着大量数据.2006年数字世界项目统计得出全球数据总量为0.18ZB,2011年全球数据量1.8ZB,2013全球数据量4.4ZB,2014年全球数据总量在6.2ZB左右,2015年全球数据总量在8.6ZB左右,2016年12ZB左右,2020年的时候,全球的数据总量将达到40ZB。(小编的印象里,高中时用的手机内存卡是512M,当时就感觉已经很牛逼了,现在16G、32G都感觉不够用~)

大数据时代


当前时代是数据爆炸的时代,全球各个网站、电子设备等都在源源不断地产生着大量数据.2006年数字世界项目统计得出全球数据总量为0.18ZB,2011年全球数据量1.8ZB,2013全球数据量4.4ZB,2014年全球数据总量在6.2ZB左右,2015年全球数据总量在8.6ZB左右,2016年12ZB左右,2020年的时候,全球的数据总量将达到40ZB。(小编的印象里,高中时用的手机内存卡是512M,当时就感觉已经很牛逼了,现在16G、32G都感觉不够用~)


1KB=1024B 
1MB=1024KB 
1GB=1024MB 
1TB=1024GB 
1PB=1024TB 
1EB=1024PB 
1ZB=1024EB 
1YB=1024ZB 
1BB=1024YB 
1NB=1024BB 
1DB=1024NB 
1CB=1024DB 
1XB=1024CB


51.png


Hadoop初识


 随着数据量的急剧增加,遇到的两个最直接的问题就是数据存储和计算(分析/利用)。

 Hadoop是一个用Java实现的分布式基础框架,也可以看做是一个支持开发、运行由通用计算设备组成的大型集群上的分布式应用的平台。Hadoop中的两个最重要的组件—HDFS和MapReduce就是用来解决海量数据(分布式)存储、海量数据(分布式)计算的。


 HDFS(HadoopDistributedFileSystem):Hadoop分布式文件存储系统,可以利用多台价格低廉的机器,分布式存储海量的数据。HDFS有两种节点,NameNode和DataNode。DataNode主要用来存储数据,NameNode管理着整个文件系统的交互。相对于普通的文件系统,HDFS显著的特点是分布式海量存储、备份机制。


52.png


 MapReduce:并行计算框架,MapReduce其实是一种分布式计算模型,多个计算机并行计算,共同做一件事情。


 用一个简单的例子来说明MapReduce,比如要做如下公式的求和结果,当涉及到的计算量比较大时,可以把任务拆分成几个部分,每个部分分别有一台计算机处理,然后每台计算机处理的结果再进行汇总。


53.png



Hadoop应用场景


 简单认识了什么是Hadoop,再来了解一下Hadoop一般都适用于哪些场景。


 Hadoop主要应用于大数据量的离线场景,特点是大数据量、离线。

1、数据量大:一般真正线上用Hadoop的,集群规模都在上百台到几千台的机器。这种情况下,T级别的数据也是很小的。

2、离线:Mapreduce框架下,很难处理实时计算,作业都以日志分析这样的线下作业为主。另外,集群中一般都会有大量作业等待被调度,保证资源充分利用。

(参考:https://www.zhihu.com/question/20565951/answer/35172719)


 另外,由于HDFS设计的特点,Hadoop适合处理文件块大的文件。大量的小文件使用Hadoop来处理效率会很低。


 Hadoop常用的场景有:

 ●大数据量存储:分布式存储(各种云盘,百度,360~还有云平台均有hadoop应用)

 ●日志处理

 ●海量计算,并行计算

 ●数据挖掘(比如广告推荐等)

 ●行为分析,用户建模等

 ……


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
分布式计算 资源调度 监控
Hadoop学习笔记(四)之YARN
Hadoop学习笔记(四)之YARN
|
存储 分布式计算 资源调度
Hadoop学习笔记(一)
Hadoop学习笔记(一)
|
SQL 分布式计算 并行计算
Hadoop学习笔记(三)之MapReduce
Hadoop学习笔记(三)之MapReduce
|
存储 分布式计算 负载均衡
Hadoop学习笔记(二)之HDFS
Hadoop学习笔记(二)之HDFS
|
分布式计算 Hadoop 数据库
Hadoop学习笔记(HDP)-Part.08 部署Ambari集群
本文为HDP集群部署系列教程第八部分,详细介绍如何通过Ambari搭建HDP集群。涵盖Ambari数据库配置、ambari-server与ambari-agent的安装部署、自动化设置及Web界面登录等步骤,助力用户高效完成集群管理平台搭建。
549 0
|
分布式计算 资源调度 Hadoop
安装hadoop学习笔记
安装hadoop学习笔记
144 0
安装hadoop学习笔记
|
分布式计算 Hadoop 关系型数据库
Hadoop学习笔记(HDP)-Part.10 创建集群
本文为HDP集群部署系列第十篇,详细介绍通过Ambari创建集群的完整流程,包括版本选择、节点配置、服务安装及ZooKeeper核心参数解析,涵盖常用命令与典型问题处理,助力高效搭建稳定大数据环境。
541 0
|
分布式计算 Hadoop 网络安全
Hadoop学习笔记(HDP)-Part.04 基础环境配置
本文为HDP集群部署系列教程,涵盖从环境准备到组件安装的完整流程。包括SSH免密登录、Ansible自动化配置、主机名与hosts设置、基础软件安装、防火墙与SELinux关闭、NTP时钟同步及磁盘分区挂载等关键步骤,为后续Ambari与大数据组件部署打下坚实基础。
265 0
|
存储 机器学习/深度学习 分布式计算
Hadoop学习笔记(HDP)-Part.12 安装HDFS
本系列为HDP大数据平台部署实战指南,涵盖HDFS、YARN、Hive等核心组件安装配置,详解Ambari集群搭建、Kerberos安全认证及高可用实现,助力快速构建企业级大数据环境。
838 0
|
分布式计算 Java Hadoop
Hadoop学习笔记(HDP)-Part.11 安装Kerberos
本文详细介绍HDP集群中Kerberos的安装与配置,涵盖服务端客户端部署、关键配置文件修改、数据库创建、Ambari集成及常用管理命令,助力构建安全认证的大数据环境。
701 0

相关实验场景

更多