Hadoop简单入门视频总结

简介: hadoop简单介绍和简单实践视频教程 慕课网: https://www.imooc.com/video/7642预备知识:liunx基本操作java开发基础知识google的大数据技术:MapReduce,BigTables,GFS革命性变化:成本降低,能用pc机就不用大型机和高端存储。

hadoop简单介绍和简单实践视频教程 慕课网: https://www.imooc.com/video/7642

预备知识:

liunx基本操作
java开发基础知识

google的大数据技术:MapReduce,BigTables,GFS

革命性变化:

  1. 成本降低,能用pc机就不用大型机和高端存储。
  2. 软件容错,硬件故障视为常态,通过软件保证可靠性。
  3. 简化并行分布式计算,无需控制节点同步和数据交换。

google分布式计算的开源实现 Hadoop ,由apache开发。
解决两个问题,分布式存储和分布式数据处理。
对应HDFS(分布式文件系统)和MapReduce(映射规约)


img_48f5b8d11be7602455ae108741b1e08b.png

Hdoop优势:

  1. 高扩展
  2. 低成本
  3. 成熟的生态圈


    img_02cdfcf6fc8deea2b9ae2e27bf6c2c93.png

    img_da8a8bb9c2e4d1ef1ffb9f2962c40cf1.png

Hadoop 生态系统

Hive 小蜜蜂,牵引

img_ba4fa75374492bdc8fd8845ec1aef404.png

Hbase

img_5c6f9722e926ae6da1f8e7ae1a9619da.png

img_8bab5d0476d475af8c28f1f34099c15f.png

zookeeper

img_7fd88dbe69488f7e7789ad6a8f9cbbf1.png

Hadoop安装

  1. 准备linux
    租用云主机,比如阿里云。
  2. jdk环境
centos下有所不同
1、下载  : yum install java-1.7.0-openjdk
2、配置环境变量 vim /etc/profile
export JAVA_HOME=/jdk路径
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/lib:$JRE_HOME/lib:$PATH
3、让配置生效source /etc/profile
4、输入  java -version 进行测试

vim /etc/profile

配置环境变量

export JAVA_HOME=/jdk路径

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/lib:$JRE_HOME/lib:$PATH

让配置生效

source /etc/profile
  1. 配置Hadoop
wegt http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
img_e317f3cdae2550ab757fc8ded9ce4156.png

修改四个配置文件


img_940793c2b0bba6aa157b243ea1f5c7c0.png
<!-- core-site.xml -->

  <property>

    <name>hadoop.tmp.dir</name>

    <value>/hadoop</value>

  </property>

  <property>

    <name>dfs.name.dir</name>

    <value>/hadoop/name</value>

  </property>

  <property>

    <name>fs.default.name</name>

    <value>hdfs://localhost:9000</value>

  </property>


<configuration>

<property>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

hdfs-site.xml



<property>

<name>dfs.data.dir</name>

<value>/hadoop/data</value>



</property>


HDFS

img_7e0a7c3331befcf1e884e5d4274e78b4.png

img_0924a7943320c35a16846addf1d2b9c3.png
img_5b1bdb1994b4c0e804834a689070bd3f.png
namenode

img_efdbdd4104503a98852ffd2677714e2d.png
datenode

文件读取流程:
客户端发送请求给NameNode,NameNode告诉客户端数据在哪些DataNode,然后客户端找DataNode读取数据。


img_5fdb507be9d94a720b795d64f9965149.png

文件写入流程:
客户端先分拆分成块64M大小,然后客户端通知NameNode存储,NameNode找几个空闲的DataNode返回客户端,客户端写数据个某个DataNode,然后DataNode进行复制,复制完毕更新NameNode记录。


img_572d130dd865a3de6961860112b46dde.png

HDFS 特点

  1. 数据冗余,硬件容错
  2. 流式的数据访问(一次写入,多次读取,顺序写入)
  3. 适合存储大文件

HDFS使用

shell命令操作

MapReduce 原理

分而治之思想
map 影视
reduce 归约


img_e1dfdbb758bc0a73541c89c36e7c3eda.png

Job&Task
JobTracker
TaskTracker


img_2378d82dccea9ea6535034f054ead9c6.png
image.png
img_59245caf95d0daef877f6f5c165646b8.png

img_c6a66587d6d51bcf4fe9e8cb85675957.png

img_792715da7b97b6652c63700070d17858.png

img_87f24963fa50d1b1b4b3f3f985dbfa2b.png

MapReduce容错机制:

  1. 重复执行
  2. 推测执行

helloword 入门 单词计数程序

img_6c395952da754460b6180c174257ff96.png

img_e4b759b7aabf33e0b3bafe075369aa55.png
img_0c0ca97c5775d2b994b2ab23b0606117.png
img_a39158936222439da80af9e23a1dc174.png
img_143bab56961deec51a12ad6bac137452.png
img_843869135146c1b1528af43c8be3c53a.png

img_e49e22b83ccab1277b8dbb61b94cdc16.png

img_855c250d4351610f7556b2b6d0b75636.png
相关文章
|
3月前
|
存储 分布式计算 Hadoop
大数据之hadoop3入门到精通(一)
大数据之hadoop3入门到精通(一)
139 1
|
5天前
|
存储 分布式计算 资源调度
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
|
3月前
|
分布式计算 Hadoop 分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
126 2
|
5天前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
5天前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(四):Hadoop启动踩坑记录
Hadoop入门基础(四):Hadoop启动踩坑记录
|
5天前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
|
5天前
|
分布式计算 Ubuntu Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
|
15天前
|
存储 分布式计算 资源调度
Hadoop入门基础(一):深入探索Hadoop内部处理流程与核心三剑客
Hadoop入门基础(一):深入探索Hadoop内部处理流程与核心三剑客
|
3月前
|
存储 分布式计算 安全
大数据之hadoop3入门到精通(三)
大数据之hadoop3入门到精通(三)
|
3月前
|
SQL 资源调度 大数据
大数据之hadoop3入门到精通(二)
大数据之hadoop3入门到精通(二)

相关实验场景

更多
下一篇
云函数