干翻Hadoop系列文章【01】:Hadoop前瞻之分布式知识

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
EMR Serverless StarRocks,5000CU*H 48000GB*H
应用型负载均衡 ALB,每月750个小时 15LCU
简介: 干翻Hadoop系列文章【01】:Hadoop前瞻之分布式知识

前言

一:海量数据价值

二:海量数据两个棘手问题

1:海量数据如何存储?

掌握分布式存储数据的思想。

A:方案1:单机存储磁盘不够加磁盘

限制问题:

1:一台计算机不能无限制拓充

2:拓充的很多之后,计算机进行多磁盘寻址的问题。

1TB硬盘,100MB存储速度的时候

B:方案2:分布式存储

一台机器存不下,多台机器共同存储,读取数据时,多台数据同时读取数据。

三:海量数据如何计算

传统计算方式,时间很长,效率很低,能不能搞出来都是个问题。

解决方案:多台计算机同时计算,进行分布式计算。

第一章:大数据知识补充

一:大数据业务分析步骤

二:大数据部门介绍

第二章:分布式技术栈

一:分布式概念

1:单机到分布式

访问量变高,单机扛不住

2:海量数据单机存不下、算不了

多线程计算,把CPU和内存榨干也是有上限瓶颈的。单机计算能力是受到物理硬件上限的限制。

二:分布式系统概述

分布式系统是一个硬件或软件组件分布在不同的网络计算机上

彼此之间仅仅通过消息传递进行通信和协调的系统。

一群互相独立计算机集合共同对外提供服务

对于系统的用户来说,就像是一台计算机在提供服务样

三:几个核心概念

1:负载均衡

概念:

Load Balance简称LB。将负载(工作任务)进行平衡、分摊到多个操作单元上进行。

说人话:

假设:单机服务最大qps为5w,现在没秒访问量有12W,单机肯定玩不转,需要加到三台机器。

图解:

LB强调的是分布式概念呢?还是集群概念的?

集群的概念,因为这里是LB对应的后台服务是一样的,所以更加注重的是集群的概念。

2:故障转移

什么是单点故障?

假设一个场景,我们一个门户网页,需要订单系统、商品系统、支付系统…进行支持。结果突然某台服务器嗝屁了 ,此为单点故障。

故障转移:

1:当活动的服务或者应用意外终止时,快速启用冗余设备、备用服务器实例、系统、硬件、网络接替它工作

2:故障转移也称之为容错系统,所谓容错只是可以容忍错误的发生。

3:故障转移的和核心是设置备份,出现故障时,主备切换。

4:主备切换的前提是数据状态保持一致。服务状态一致,缓存状态一致,数据存储状态一致。

3:伸缩性

伸缩线称之为弹性可拓展性。动态拓展缩减我们的后台实例数量

流量大时拓展服务器,流量小时缩减服务器。

总结:

1:负载均衡:解决一个处理不了,多个共同处理的问题

2:故障转移:解决单点故障 容忍错误发生 业务连续

3:伸缩性:动态扩容,缩容

相关实践学习
SLB负载均衡实践
本场景通过使用阿里云负载均衡 SLB 以及对负载均衡 SLB 后端服务器 ECS 的权重进行修改,快速解决服务器响应速度慢的问题
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
相关文章
|
1月前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
40 2
|
1月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
44 1
|
1月前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
41 1
|
1月前
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
28 1
|
1月前
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
40 1
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
45 1
|
5月前
|
消息中间件 NoSQL Java
Redis系列学习文章分享---第六篇(Redis实战篇--Redis分布式锁+实现思路+误删问题+原子性+lua脚本+Redisson功能介绍+可重入锁+WatchDog机制+multiLock)
Redis系列学习文章分享---第六篇(Redis实战篇--Redis分布式锁+实现思路+误删问题+原子性+lua脚本+Redisson功能介绍+可重入锁+WatchDog机制+multiLock)
227 0
|
1月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
45 0
|
3月前
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
171 2
|
3月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
87 1
下一篇
无影云桌面