大数据—Hadoop 3.x—一.概念

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 1. 基本概念1. hadoop 是一个apache的分布式系统基础架构2. 主要解决海量数据的存储海里数据的分析计算问题3. 通常来说,hadoop通常是指一个更广泛的概念hadoop生态圈

2. 发展历史

  1. 创始人Doug Cutting
  2. Lucene称为apache基金会的子项目
  3. Lucene面临跟google一样的问题,海里数据存储问题,检索问题
  4. DougCutting学习模仿google,创造微型版Nutch
  5. hadoop的产生依赖于google在大数据方面的三篇论文
  1. GFS 产生了 HDFS
  2. Map-Reduce 产生了MR
  3. BigTable  产生了Hbase
  1. 03-04年,google公开了部分GFS和MapReduce的细节,DougCutting用了两年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升
  2. 05年,hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会
  3. 06年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入hadoop中,Hadoop诞生
  4. 名字来源于Doug Cutting儿子的玩具大象

3.三大发行版本

Apache 最基本的版本

Cloudera 内部集成了很多大数据框架 对应产品CDH

Hortonworks 文档较好 对应产品HDP 已被Cloudera收购,推出产品CDP

4.优势

  1. 高可靠性 底层多个数据副本
  2. 高扩展性 动态增加节点
  3. 高效性 并行工作
  4. 高容错性

5. 组成

  1. 1.x
  1. Common 辅助工具
  2. HDFS 数据存储
  3. MapReduce 计算+资源调度
  1. 2.x
  1. Common 辅助工具
  2. HDFS 数据存储
  3. Yarn 资源调度
  4. MapReduce 计算
  1. 3.x
  1. 无变化

6. 各组成概述

6.1 HDFS概述

Hadoop Distributed File System

  1. NameNode 数据的存储情况
  2. DataNode 存储数据
  3. 2NN 对NN进行备份

6.2 YARN概述

Yet Another Resource Negotiator 另一种资源协调者

  1. ResourceManager 整个集群资源的管理者
  2. NodeManager 单节点资源的管理者
  3. ApplicationMaster 单个任务运行的管理者
  4. Container 容器

6.3 MapReduce概述

分为Map Reduce两部分

7. 生态体系

image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
存储 分布式计算 大数据
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
90 3
|
4月前
|
消息中间件 分布式计算 大数据
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
239 0
|
2月前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
85 4
|
4月前
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
96 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
3月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
187 2
|
3月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
182 1
|
4月前
|
机器学习/深度学习 XML 分布式计算
大数据的概念
【10月更文挑战第16天】
161 4
|
4月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
121 1
|
4月前
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
244 0
|
4月前
|
消息中间件 NoSQL Kafka
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
293 0