分布式文件系统实战,使用MinIO构建分布式文件系统!

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
网络型负载均衡 NLB,每月750个小时 15LCU
简介: 随着文件数据的越来越多,传统的文件存储方式通过tomcat或nginx虚拟化的静态资源文件在单一的服务器节点内已经无法满足系统需求,也不利于文件的管理和维护,这就需要一个系统来管理多台计算机节点上的文件数据,这就是分布式文件系统。

随着文件数据的越来越多,传统的文件存储方式通过tomcat或nginx虚拟化的静态资源文件在单一的服务器节点内已经无法满足系统需求,也不利于文件的管理和维护,这就需要一个系统来管理多台计算机节点上的文件数据,这就是分布式文件系统。


一、什么是分布式文件系统?

1.1 什么是分布式文件系统

分布式文件系统(Distributed File System,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点(可简单的理解为一台计算机)相连;或是若干不同的逻辑磁盘分区或卷标组合在一起而形成的完整的有层次的文件系统。DFS为分布在网络上任意位置的资源提供一个逻辑上的树形文件系统结构,从而使用户访问分布在网络上的共享文件更加简便。



1.3 分布式文件系统的优势

可扩展:分布式存储系统可以扩展到数百甚至数千个这样的集群大小,并且系统的整体性能可以线性增长。

高可用性:在分布式文件系统中,高可用性包含两层,一是整个文件系统的可用性,二是数据的完整和一致性

低成本:分布式存储系统的自动容错和自动负载平衡允许在成本较低服务器上构建分布式存储系统。此外,线性可扩展性还能够增加和降低服务器的成本。

弹性存储: 可以根据业务需要灵活地增加或缩减数据存储以及增删存储池中的资源,而不需要中断系统运行


1.4 分布式文件系统的应用场景

分布式文件系统广发适用于互联网、金融等海量非结构化数据的存储需求:

  • 电商网站:海量商品图片
  • 视频平台:视频、图片文件存储
  • 网盘应用:文件存储
  • 社交网站:海量视频、图片


二、分布式文件系统与传统文件系统对比

image.png

传统的网络存储系统采用集中的服务器存放所有数据,到一定程度服务器会成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。


分布式文件系统是将文件分散的存储在多台服务器上,采用可扩展的系统结构,利用多台服务器分担负荷,利用位置服务器定位存储信息。这不但提高了系统的可靠性、可用性和存取效率,还易于扩展,避免单点故障。


分布式文件系统 一般文件系统
存储方式 数据分散的存储在多台服务器上

集中存放所有数据,在一台服务器上器上

特点

分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。

使用分布式文件系统可以解决如下几点问题:

  • 海量文件数据存储
  • 文件数据高可用(冗余备份)
  • 读写性能和负载均衡

以上三点都是传统文件系统无法达到的,这也是我们为什么要使用分布式文件系统的原因。


目前,可用于文件存储的网络服务选择有很多,其中最常用的分布式文件系统有:DFS、FastDfs、MinIO、Ceph等。接下来我们就来详细介绍MinIO并通过MinIO搭建分布式存储系统。


三、MinIO简介

3.1 什么是MinIO?

MinIO 是在 GNU Affero 通用公共许可证 v3.0 下发布的高性能对象存储。它与 Amazon S3 云存储服务 API 兼容。使用 MinIO 为机器学习、分析和应用程序数据工作负载构建高性能基础架构。


官方文档:https//docs.min.io/

中文文档:http://docs.minio.org.cn/docs/

GitHub 地址:https://github.com/minio/minio


3.2 MinIO的特点

  • 数据保护——分布式 MinIO采用 纠删码来防范多个节点宕机和位衰减 bit rot。分布式 MinIO至少需要 4 个硬盘,使用分布式 MinIO自动引入了纠删码功能。
  • 高可用——单机MinIO服务存在单点故障风险,相反,如果是一个有 N 块硬盘的分布式 MinIO,只要有 N/2 硬盘在线,你的数据就是安全的。不过你需要至少有 N/2+1 个硬盘来创建新的对象。
  • 一致性——MinIO在分布式和单机模式下,所有读写操作都严格遵守 read-after-write 一致性模型。


3.3 MinIO的优点

  • 部署简单,一个二进制文件(minio)即是一切,还可以支持各种平台;
  • 支持海量存储,可以按 zone 扩展,支持单个对象最大 5TB;
  • 低冗余且磁盘损坏高容忍,标准且最高的数据冗余系数为 2(即存储一个 1M 的数据对象,实际占用磁盘空间为 2M)。但在任意 n/2 块 disk 损坏的情况下依然可以读出数据(n 为一个纠删码集合中的 disk 数量)。并且这种损坏恢复是基于单个对象的,而不是基于整个存储卷的;
  • 读写性能优异,MinIO号称是目前速度最快的对象存储服务器。在标准硬件上,对象存储的读/写速度最高可以高达183 GB/s和171 GB/s。


3.4 MinIO 基础概念

  • S3——Simple Storage Service,简单存储服务,这个概念是 Amazon 在 2006 年推出的,对象存储就是从那个时候诞生的。S3 提供了一个简单 Web 服务接口,可用于随时在 Web 上的任何位置存储和检索任何数量的数据;
  • Object——存储到 MinIO 的基本对象,如文件、字节流等各种类型的数据;Bucket——用来存储 Object 的逻辑空间。每个 Bucket 之间的数据是相互隔离的;
  • Drive——部署 MinIO时设置的磁盘,MinIO 中所有的对象数据都会存储在 Drive 里;
  • Set——一组 Drive 的集合,分布式部署根据集群规模自动划分一个或多个 Set ,每个 Set 中的 Drive 分布在不同位置。
  • 一个对象存储在一个 Set 上
  • 一个集群划分为多个 Set
  • 一个 Set 包含的 Drive 数量是固定的,默认由系统根据集群规模自动计算得出
  • 一个 SET 中的 Drive 尽可能分布在不同的节点上


Set /Drive 的关系

  • Set /Drive 这两个概念是 MinIO 里面最重要的两个概念,一个对象最终是存储在 Set 上面的。
  • Set 是另外一个概念,Set 是一组 Drive 的集合,图中,所有蓝色、橙色背景的 Drive(硬盘)的就组成了一个 Set。


3.5 什么是纠删码(Erasure Code)?

前面我们介绍MinIO的时候提到过:Minio 采用纠删码来防范多个节点宕机或是故障,保证数据安全。那究竟什么是纠删码呢?


纠删码(Erasure Code)简称 EC,它是一种恢复丢失和损坏数据的算法,也是一种编码技术。通过将数据分割成片段,把冗余数据块扩展、编码,并将其存储在不同的位置,比如磁盘、存储节点或者其它地理位置,实现数据的备份与安全。


其实,简单来说就是:纠删码可通过将 n 份原始数据,增加 m 份校验数据,并能通过 n+m 份中的任意 n 份原始数据,还原为原始数据。即如果有任意小于等于 m 份的校验数据失效,仍然能通过剩下的数据还原出来。


目前,纠删码技术在分布式存储系统中的应用主要有三类:阵列纠删码(Array Code: RAID5、RAID6 等)RS(Reed-Solomon)里德-所罗门类纠删码LDPC(LowDensity Parity Check Code)低密度奇偶校验纠删码


Minio 采用 Reed-Solomon code 将对象拆分成 N/2 数据和 N/2 奇偶校验块。在同一集群内,MinIO 自己会自动生成若干纠删组(Set),用于分布存放桶数据。一个纠删组中的一定数量的磁盘发生的故障(故障磁盘的数量小于等于校验盘的数量),通过纠删码校验算法可以恢复出正确的数据。


四、MinIO安装部署

4.1MinIO部署方式

MinIO支持多种部署方式:单主机单硬盘模式、单主机多硬盘模式、多主机多硬盘模式(也就是分布式)。下面介绍下这三种方式。

4.1.1 单主机,单硬盘模式

image.png

如上图所示,此模式下MinIO 只在一台服务器上搭建服务,且数据都存在单块磁盘上,该模式存在单点风险,主要用作开发、测试等使用


4.1.2 单主机,多硬盘模式

image.png

如上图所示,该模式下MinIO 在一台服务器上搭建服务,但数据分散在多块(大于 4 块)磁盘上,提供了数据上的安全保障。


4.1.3 多主机、多硬盘模式(分布式)

image.png

如上图所示,此模式是 MinIO 服务最常用的架构,通过共享一个 access_key 和 secret_key,在多台服务器上搭建服务,且数据分散在多块(大于 4 块,无上限)磁盘上,提供了较为强大的数据冗余机制(Reed-Solomon 纠删码)。


4.2MinIO 分布式部署

4.2.1 环境准备

由于是MinIO分布式部署,准备了2台Linux虚拟机,Centos 7.5的操作系统。同时每台服务器额外增加了2个磁盘。Nginx则是用于集群的负载均衡,也可以使用etcd。

节点

IP

磁盘

minio node1

192.168.78.101

/mnt/disk1,/mnt/disk2

minio node2

192.168.78.102

/mnt/disk1,/mnt/disk2

nginx

192.168.78.101

/home/nginx

【温馨提示】磁盘大小必须>1G,这里我添加的是 4*1G 的盘。


MinIO官网下载地址:https://min.io/download#/linux


4.2.2 搭建MinIO集群

1)创建安装目录

首先,在每台服务器上创建minio的目录。

mkdir -p /home/minio/{run,conf} && mkdir -p /etc/minio


2)下载MinIO

接下来进入到我们刚刚创建的minio目录,下载MinIO程序,具体命令如下所示:

cd /home/minio/run
wget https://dl.min.io/server/minio/release/linux-amd64/minio
chmod +x minio

minio的程序很简单,下载后就一个可执行文件。两台服务器都要执行如下操作,当然也可以一台服务器上面执行,然后拷贝到另一台服务器。


3)配置服务启动脚本

Minio 默认9000端口,在配置文件中加入–address “127.0.0.1:9029” 可更改端口。同时还有一些启动参数如下所示:

  • MINIO_ACCESS_KEY:用户名,长度最小是 5 个字符;
  • MINIO_SECRET_KEY:密码,密码不能设置过于简单,不然 minio 会启动失败,长度最小是 8 个字符;
  • –config-dir:指定集群配置文件目录;
  • –address:api 的端口,默认是9000
  • --console-address :web 后台端口,默认随机;


编写启动脚本(/home/minio/run/minio-run.sh

#!/bin/bash
export MINIO_ACCESS_KEY=admin
export MINIO_SECRET_KEY=12345678
/home/minio/run/minio server --config-dir /home/minio/conf \
--address "192.168.78.102:9000" --console-address ":50000" \
http://192.168.78.102/mnt/disk1 http://192.168.78.102/mnt/disk2 \
http://192.168.78.101/mnt/disk1 http://192.168.78.101/mnt/disk2 \

如上示例代码所示,我们的minio服务绑定主机192.168.1.102和端口9000,后台端口50000,配置MinIO服务的登录账号密码为:admin\12345678。此启动脚本同样需要复制到另外一台服务器。

【温馨提示】脚本复制时 \ 后不要有空格,还有就是上面的目录是对应的一块磁盘,而非简单的在/mnt 目录下创建四个目录,要不然会报如下错误,看提示以为是 root 权限问题。part of root disk, will not be used (*errors.errorString)


4)启动Minio集群

MinIO配置完成后,在两台测试服务器上都执行该脚本,即以分布式的方式启动MINIO服务。sh /home/minio/run/minio-run.sh

image.png


集群启动成功后,接下来分别访问节点上的MinIO后台管理页面,两个节点都可以访问http://192.168.78.101:50000/,http://192.168.78.102:50000/ 。账号密码:admin/12345678

image.png

以上,说明MinIO集群启动成功。


4.2.3 使用 nginx 负载均衡

上面我们部署好了MinIO集群,我们知道每个集群上的节点都可以单独访问,虽然每个节点的数据都是一致的,但这样显然不合理。接下来我们通过使用 nginx 进行负载均衡。具体的的配置如下:

upstream minio_server {
    server 192.168.78.101:9000;
    server 192.168.78.102:9000;
}
upstream minio_console {
    server 192.168.78.101:50000;
    server 192.168.78.102:50000;
}
server{
    listen       9001;
    server_name  192.168.78.101;
    ignore_invalid_headers off;
    client_max_body_size 0;
    proxy_buffering off;
    location / {
        proxy_set_header   X-Forwarded-Proto $scheme;
        proxy_set_header   Host              $http_host;
        proxy_set_header   X-Real-IP         $remote_addr;
        proxy_connect_timeout 300;
        proxy_http_version 1.1;
        chunked_transfer_encoding off;
        proxy_ignore_client_abort on;
        proxy_pass http://minio_server;
    }
}
server{
    listen       50001;
    server_name  192.168.78.101;
    ignore_invalid_headers off;
    client_max_body_size 0;
    proxy_buffering off;
    location / {
        proxy_set_header   X-Forwarded-Proto $scheme;
        proxy_set_header   Host              $http_host;
        proxy_set_header   X-Real-IP         $remote_addr;
        proxy_connect_timeout 300;
        proxy_http_version 1.1;
        chunked_transfer_encoding off;
        proxy_ignore_client_abort on;
        proxy_pass http://minio_console;
    }
}

这里就不介绍如何安装Nginx了。不了解的同学可以查看我之前关于Nginx的系列文章。


接下来,保存配置并重启Nginx服务,然后在浏览器中访问:http://192.168.78.101:50001/ 验证MinIO集群是否可以访问。

image.png


最后

以上,我们就把分布式存储系统介绍完了,并且介绍了目前最流行的分布式对象存储MinIO。接下来还会介绍如何在项目中整合MinIO服务。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
2天前
|
数据管理 API 调度
鸿蒙HarmonyOS应用开发 | 探索 HarmonyOS Next-从开发到实战掌握 HarmonyOS Next 的分布式能力
HarmonyOS Next 是华为新一代操作系统,专注于分布式技术的深度应用与生态融合。本文通过技术特点、应用场景及实战案例,全面解析其核心技术架构与开发流程。重点介绍分布式软总线2.0、数据管理、任务调度等升级特性,并提供基于 ArkTS 的原生开发支持。通过开发跨设备协同音乐播放应用,展示分布式能力的实际应用,涵盖项目配置、主界面设计、分布式服务实现及部署调试步骤。此外,深入分析分布式数据同步原理、任务调度优化及常见问题解决方案,帮助开发者掌握 HarmonyOS Next 的核心技术和实战技巧。
111 76
鸿蒙HarmonyOS应用开发 | 探索 HarmonyOS Next-从开发到实战掌握 HarmonyOS Next 的分布式能力
|
2天前
|
物联网 调度 vr&ar
鸿蒙HarmonyOS应用开发 |鸿蒙技术分享HarmonyOS Next 深度解析:分布式能力与跨设备协作实战
鸿蒙技术分享:HarmonyOS Next 深度解析 随着万物互联时代的到来,华为发布的 HarmonyOS Next 在技术架构和生态体验上实现了重大升级。本文从技术架构、生态优势和开发实践三方面深入探讨其特点,并通过跨设备笔记应用实战案例,展示其强大的分布式能力和多设备协作功能。核心亮点包括新一代微内核架构、统一开发语言 ArkTS 和多模态交互支持。开发者可借助 DevEco Studio 4.0 快速上手,体验高效、灵活的开发过程。 239个字符
137 13
鸿蒙HarmonyOS应用开发 |鸿蒙技术分享HarmonyOS Next 深度解析:分布式能力与跨设备协作实战
|
9天前
|
NoSQL Java Redis
秒杀抢购场景下实战JVM级别锁与分布式锁
在电商系统中,秒杀抢购活动是一种常见的营销手段。它通过设定极低的价格和有限的商品数量,吸引大量用户在特定时间点抢购,从而迅速增加销量、提升品牌曝光度和用户活跃度。然而,这种活动也对系统的性能和稳定性提出了极高的要求。特别是在秒杀开始的瞬间,系统需要处理海量的并发请求,同时确保数据的准确性和一致性。 为了解决这些问题,系统开发者们引入了锁机制。锁机制是一种用于控制对共享资源的并发访问的技术,它能够确保在同一时间只有一个进程或线程能够操作某个资源,从而避免数据不一致或冲突。在秒杀抢购场景下,锁机制显得尤为重要,它能够保证商品库存的扣减操作是原子性的,避免出现超卖或数据不一致的情况。
42 10
|
1月前
|
存储 运维 负载均衡
构建高可用性GraphRAG系统:分布式部署与容错机制
【10月更文挑战第28天】作为一名数据科学家和系统架构师,我在构建和维护大规模分布式系统方面有着丰富的经验。最近,我负责了一个基于GraphRAG(Graph Retrieval-Augmented Generation)模型的项目,该模型用于构建一个高可用性的问答系统。在这个过程中,我深刻体会到分布式部署和容错机制的重要性。本文将详细介绍如何在生产环境中构建一个高可用性的GraphRAG系统,包括分布式部署方案、负载均衡、故障检测与恢复机制等方面的内容。
107 4
构建高可用性GraphRAG系统:分布式部署与容错机制
|
2月前
|
运维 供应链 安全
SD-WAN分布式组网:构建高效、灵活的企业网络架构
本文介绍了SD-WAN(软件定义广域网)在企业分布式组网中的应用,强调其智能化流量管理、简化的网络部署、弹性扩展能力和增强的安全性等核心优势,以及在跨国企业、多云环境、零售连锁和制造业中的典型应用场景。通过合理设计网络架构、选择合适的网络连接类型、优化应用流量优先级和定期评估网络性能等最佳实践,SD-WAN助力企业实现高效、稳定的业务连接,加速数字化转型。
SD-WAN分布式组网:构建高效、灵活的企业网络架构
|
1月前
|
监控 算法 网络协议
|
2月前
|
NoSQL Java Redis
开发实战:使用Redisson实现分布式延时消息,订单30分钟关闭的另外一种实现!
本文详细介绍了 Redisson 延迟队列(DelayedQueue)的实现原理,包括基本使用、内部数据结构、基本流程、发送和获取延时消息以及初始化延时队列等内容。文章通过代码示例和流程图,逐步解析了延迟消息的发送、接收及处理机制,帮助读者深入了解 Redisson 延迟队列的工作原理。
|
1月前
|
存储 监控 大数据
构建高可用性ClickHouse集群:从单节点到分布式
【10月更文挑战第26天】随着业务的不断增长,单一的数据存储解决方案可能无法满足日益增加的数据处理需求。在大数据时代,数据库的性能、可扩展性和稳定性成为企业关注的重点。ClickHouse 是一个用于联机分析处理(OLAP)的列式数据库管理系统(DBMS),以其卓越的查询性能和高吞吐量而闻名。本文将从我的个人角度出发,分享如何将单节点 ClickHouse 扩展为高可用性的分布式集群,以提升系统的稳定性和可靠性。
113 0
|
2月前
|
NoSQL Java Redis
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?
Redis分布式锁在高并发场景下是重要的技术手段,但其实现过程中常遇到五大深坑:**原子性问题**、**连接耗尽问题**、**锁过期问题**、**锁失效问题**以及**锁分段问题**。这些问题不仅影响系统的稳定性和性能,还可能导致数据不一致。尼恩在实际项目中总结了这些坑,并提供了详细的解决方案,包括使用Lua脚本保证原子性、设置合理的锁过期时间和使用看门狗机制、以及通过锁分段提升性能。这些经验和技巧对面试和实际开发都有很大帮助,值得深入学习和实践。
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?
|
20天前
|
存储 NoSQL Java
使用lock4j-redis-template-spring-boot-starter实现redis分布式锁
通过使用 `lock4j-redis-template-spring-boot-starter`,我们可以轻松实现 Redis 分布式锁,从而解决分布式系统中多个实例并发访问共享资源的问题。合理配置和使用分布式锁,可以有效提高系统的稳定性和数据的一致性。希望本文对你在实际项目中使用 Redis 分布式锁有所帮助。
53 5