干翻Hadoop系列文章【01】:Hadoop前瞻之分布式知识

简介: 干翻Hadoop系列文章【01】:Hadoop前瞻之分布式知识

前言

一:海量数据价值

二:海量数据两个棘手问题

1:海量数据如何存储?

掌握分布式存储数据的思想。

A:方案1:单机存储磁盘不够加磁盘

限制问题:

1:一台计算机不能无限制拓充

2:拓充的很多之后,计算机进行多磁盘寻址的问题。

1TB硬盘,100MB存储速度的时候

B:方案2:分布式存储

一台机器存不下,多台机器共同存储,读取数据时,多台数据同时读取数据。

三:海量数据如何计算

传统计算方式,时间很长,效率很低,能不能搞出来都是个问题。

解决方案:多台计算机同时计算,进行分布式计算。

第一章:大数据知识补充

一:大数据业务分析步骤

二:大数据部门介绍

第二章:分布式技术栈

一:分布式概念

1:单机到分布式

访问量变高,单机扛不住

2:海量数据单机存不下、算不了

多线程计算,把CPU和内存榨干也是有上限瓶颈的。单机计算能力是受到物理硬件上限的限制。

二:分布式系统概述

分布式系统是一个硬件或软件组件分布在不同的网络计算机上

彼此之间仅仅通过消息传递进行通信和协调的系统。

一群互相独立计算机集合共同对外提供服务

对于系统的用户来说,就像是一台计算机在提供服务样

三:几个核心概念

1:负载均衡

概念:

Load Balance简称LB。将负载(工作任务)进行平衡、分摊到多个操作单元上进行。

说人话:

假设:单机服务最大qps为5w,现在没秒访问量有12W,单机肯定玩不转,需要加到三台机器。

图解:

LB强调的是分布式概念呢?还是集群概念的?

集群的概念,因为这里是LB对应的后台服务是一样的,所以更加注重的是集群的概念。

2:故障转移

什么是单点故障?

假设一个场景,我们一个门户网页,需要订单系统、商品系统、支付系统…进行支持。结果突然某台服务器嗝屁了 ,此为单点故障。

故障转移:

1:当活动的服务或者应用意外终止时,快速启用冗余设备、备用服务器实例、系统、硬件、网络接替它工作

2:故障转移也称之为容错系统,所谓容错只是可以容忍错误的发生。

3:故障转移的和核心是设置备份,出现故障时,主备切换。

4:主备切换的前提是数据状态保持一致。服务状态一致,缓存状态一致,数据存储状态一致。

3:伸缩性

伸缩线称之为弹性可拓展性。动态拓展缩减我们的后台实例数量

流量大时拓展服务器,流量小时缩减服务器。

总结:

1:负载均衡:解决一个处理不了,多个共同处理的问题

2:故障转移:解决单点故障 容忍错误发生 业务连续

3:伸缩性:动态扩容,缩容

相关实践学习
部署高可用架构
本场景主要介绍如何使用云服务器ECS、负载均衡SLB、云数据库RDS和数据传输服务产品来部署多可用区高可用架构。
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
相关文章
|
6天前
|
分布式计算 Ubuntu Hadoop
百度搜索:蓝易云【Ubuntu搭建全分布式Hadoop】
请注意,以上只是概述,并不包含详细的步骤和指令。搭建全分布式Hadoop是一个复杂的过程,需要对Hadoop的架构和配置有深入的理解,并熟悉Linux系统管理。建议在搭建全分布式Hadoop之前,先学习相关知识并查阅官方文档和教程,以确保正确搭建和配置Hadoop集群。
29 0
|
6天前
|
存储 关系型数据库 MySQL
【分布式和微服务1】一篇文章详细了解分布式和微服务的基本概念
【分布式和微服务1】一篇文章详细了解分布式和微服务的基本概念
139 0
|
6天前
|
SQL 分布式计算 Hadoop
干翻Hadoop系列文章【02】:Hadoop、Hive、Spark的区别和联系
干翻Hadoop系列文章【02】:Hadoop、Hive、Spark的区别和联系
|
6天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
6天前
|
存储 分布式计算 Hadoop
Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)
105 3
|
6天前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
142 2
|
5天前
|
存储 分布式计算 Hadoop
Hadoop分布式文件系统(HDFS)
【5月更文挑战第10天】
20 3
|
6天前
|
存储 SQL 分布式计算
Hadoop分布式架构
【5月更文挑战第8天】Hadoop分布式架构
12 4
|
6天前
|
分布式计算 Ubuntu Hadoop
【分布式计算框架】hadoop全分布式及高可用搭建
【分布式计算框架】hadoop全分布式及高可用搭建
29 1
|
6天前
|
存储 分布式计算 Hadoop
【分布式计算框架】Hadoop伪分布式安装
【分布式计算框架】Hadoop伪分布式安装
9 2

相关实验场景

更多