Hadoop基础-01-基本概念

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Hadoop基础-01-基本概念16

源码见 https://github.com/hiszm/hadoop-train

大数据概述

hadoop

导学

学习内容

  • Hadoop
  • 分布式文件系统HDFS
  • 分布式资源调度YARN
  • 分布式计算机框架MapReduce
  • 数据仓库Hive
  • Hadoop分布式集群搭建

环境参数

  • Linux:Centos7
  • Hadoop:CDH5.15.1
  • 开发工具:IDEA

案例

有一天,一名美国男子闯入他家附近的一家TARGET,抗议道:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,你们这是赤裸裸的侮辱,我要起诉你们!”
店铺经理立刻跑出来承认错误,迷惑的经理到最后也没明白,到底发生了什么
一个月后,这名男子来TARGET道歉
因为他后来才知道女儿的确怀孕了
这样说来,TARGET比这位父亲知道他女儿怀孕的时间,足足早了一个月。
那么问题来了,TARGET是怎么知道的呢?
这个女孩之前并没有购买过任何的母婴用品
原来,这就是神秘的大数据发挥的作用。

定义和特征

  • 海量的计算
  • 大量的用户全体
  • 数据分析
  • 数据管理

4V特征

4V特征

技术变革

  • 技术驱动:数据量大
  • 存储: 文件存储->分布式存储
  • 计算:单机-> 分布式计算
  • 网络:万兆
  • DB:RDBMS(关系型数据库)-> NoSql(HBase/Redis)

现存的模式

  • 手握大数据,无大数据行为(金融。通讯运营商)
  • 没数据,又大数据思维(一些It企业)
  • 又大数据,又有大数据思维(google,阿里)Ω

存储和分析

数据采集:Flume sqoop
数据存储:Hadoop
数据处理,分析,挖掘:Hadoop,Spark,Flink
数据可视化:echart

差异

  • 对数据库的技术升级
  • 经典数据库没有考虑到的多类别
  • 实时性的技术
  • 对网络,数据中心,运维的要求

Google的大数据结束

为了应对大数据带来的挑战

  • 存储容量
  • 读写数据
  • 计算机效率

Google提供的思路(未开源)

  • MapReduce
  • BigTable
  • GFS

所以开发者根据谷歌的思路构建了Hadoop

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
存储 分布式计算 Hadoop
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
464 0
|
5月前
|
存储 分布式计算 Hadoop
Hadoop Distributed File System (HDFS): 概念、功能点及实战
【6月更文挑战第12天】Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的核心组件之一。它设计用于在大规模集群环境中存储和管理海量数据,提供高吞吐量的数据访问和容错能力。
637 4
|
1月前
|
分布式计算 Hadoop Unix
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
42 1
|
1月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
47 0
|
6月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
308 2
|
3月前
|
存储 分布式计算 Hadoop
|
6月前
|
存储 分布式计算 Hadoop
Hadoop节点数据块概念与功能
【5月更文挑战第21天】
91 1
|
6月前
|
存储 分布式计算 Hadoop
hadoop节点HDFS数据块基本概念
【5月更文挑战第19天】
80 1
|
6月前
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
277 0
|
6月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
531 0