备案控制台

开发者社区大数据文章正文

Hadoop权威指南学习笔记_第一章_初识Hadoop

2017-11-20 1398

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

学习时间：20130701

知识点积累：

数据的存储和分析：

为了实现数据读取的高效，可从多个磁盘并行读取数据，需要解决2个问题：

硬件故障，避免数据丢失
大部分分析任务需要通过某种方式把数据合并起来

相较于其他系统：

关系型数据库管理系统：
网格计算：

高性能计算（High Performance Computing）的方法是将作业分配给一个机器集群，这些机器访问共享文件系统，由一个存储区域网络（Storage Area Network，SAN）进行管理；这非常适用于CPU密集型的作业，但当节点需要访问大数据量时，网络带宽将成为“瓶颈”
MapReduce尝试在计算节点本地存储数据，这项“数据本地化”功能成为MapReduce的核心功能
MapReduce检测失败的map或者reduce任务，在健康的机器上重新安排任务，而不需要程序员考虑失败任务的处理机制

志愿计算：

志愿计算项目通过将他们试图解决的问题分成多个块，每个块称为一个工作单元，并将它们发到世界各地的电脑上进行分析
SETI@home问题是CPU高度密集型的，并在接入互联网的不可信的计算机上运行，这些计算机的网速不同，而且数据也不在本地

Hadoop生态圈：

Common：一组分布式文件系统和通用I/O的组件与接口（序列化、Java RPC和持久化数据结构）
Avro：一种支持高效、跨语言的RPC以及永久存储数据的序列化系统；
MapReduce：分布式数据处理模型和执行环境，运行于大型商用机集群；
HDFS：分布式文件系统，运行于大型商用机集群；
Pig：一种数据流语言和运行环境，用以检索非常大的数据集；
Hive:一个分布式、按列存储的数据仓库，管理HDFS中存储的数据，并提供基于SQL的查询语句用以查询数据；
HBase:一个分布式、按列存储数据库，使用HDFS作为底层存储，同时支持MapReduce的批量式计算和点查询（随机读取）；
Zookeeper：一个分布式、可用性高的协调服务；提供分布式锁之类的基本服务用于构建分布式应用；
Sqoop:在数据库和HDFS之间高效传输数据的工具

本文转自 xxrenzhe11 51CTO博客，原文链接：http://blog.51cto.com/xxrenzhe/1238932，如需转载请自行联系原作者

文章标签：

存储

数据库

分布式计算

Hadoop

Java

数据处理

SQL

NoSQL

HIVE

程序员

关键词：

hadoop学习笔记

hadoop权威指南学习笔记

余二五

目录

相关文章

这啥名啊

|

8月前

|

消息中间件存储分布式计算

Hadoop学习笔记（HDP）-Part.19 安装Kafka

01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume

这啥名啊

196 0 0

Hadoop学习笔记（HDP）-Part.19 安装Kafka

宁波阿成.

|

8月前

|

分布式计算资源调度 Hadoop

安装hadoop学习笔记

安装hadoop学习笔记

宁波阿成.

72 0 0

这啥名啊

|

8月前

|

分布式计算资源调度 Hadoop

Hadoop学习笔记（HDP）-Part.18 安装Flink

01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume

这啥名啊

278 2 2

Hadoop学习笔记（HDP）-Part.18 安装Flink

这啥名啊

|

8月前

|

SQL 分布式计算 Hadoop

Hadoop学习笔记（HDP）-Part.16 安装HBase

01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume

这啥名啊

154 1 1

Hadoop学习笔记（HDP）-Part.16 安装HBase

这啥名啊

|

8月前

|

SQL 分布式计算 Hadoop

Hadoop学习笔记（HDP）-Part.15 安装HIVE

01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume

这啥名啊

222 1 1

Hadoop学习笔记（HDP）-Part.15 安装HIVE

这啥名啊

|

8月前

|

消息中间件存储分布式计算

Hadoop学习笔记（HDP）-Part.20 安装Flume

01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume

这啥名啊

132 0 0

Hadoop学习笔记（HDP）-Part.20 安装Flume

这啥名啊

|

8月前

|

分布式计算资源调度 Java

Hadoop学习笔记（HDP）-Part.17 安装Spark2

01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume

这啥名啊

103 0 0

Hadoop学习笔记（HDP）-Part.17 安装Spark2

这啥名啊

|

8月前

|

资源调度分布式计算 Hadoop

Hadoop学习笔记（HDP）-Part.14 安装YARN+MR

01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume

这啥名啊

289 0 0

Hadoop学习笔记（HDP）-Part.14 安装YARN+MR

这啥名啊

|

8月前

|

分布式计算 Hadoop 关系型数据库

Hadoop学习笔记（HDP）-Part.13 安装Ranger

01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume

这啥名啊

330 0 0

Hadoop学习笔记（HDP）-Part.13 安装Ranger

Maynor

|

8月前

|

存储 SQL 分布式计算

Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)

Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)

Maynor

570 0 0

热门文章

最新文章

Flume+Hadoop：打造你的大数据处理流水线

使用Hadoop MapReduce进行大规模数据爬取

【赵渝强老师】Hadoop生态圈组件

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

Hadoop集群管理：向繁琐的计算源创建Say ByeBye

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【赵渝强老师】基于ZooKeeper实现Hadoop HA

【赵渝强老师】部署Hadoop的本地模式

linux中HADOOP_HOME和JAVA_HOME删除后依然指向旧目录

hadoop安装小记

Hadoop配置复杂性

Hadoop生态系统集成问题

Hadoop权限问题

Hadoop安全性问题

安装hadoop学习笔记

Hadoop的HDFS问题

Hadoop防火墙问题

Hadoop网络问题

Hadoop常见问题

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

下一篇

阿里云无影云电脑免费试用，最长可试用3个月