分布式存储FastDFS
1 什么是分布式存储
分布式存储简单的来说,就是将数据分散存储到多个存储设备(服务器)上。
传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。
分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
经典的分布式文件系统介绍:
http://os.51cto.com/art/201209/357433.htm
2 FastDFS
2.1 什么是FastDFS
FastDFS是一款开源的、分布式文件系统(Distributed File System), 由淘宝开发平台部资深架构师余庆开发。
它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载、文件删除)等,解决了大容量存储和负载均衡的问题。
FastDFS是通过纯C实现,支持Linux, FreeBSD等Unix系统类Google FS, 不是通用的文件系统,只能够通过专有API访问,目前提供了C,Java和PHP API为互联网应用量身定做,解决大容量文件存储问题,追求高性能和高扩展性 FastDFS可以看做是基于文件的key-value存储系统,称为分布式文件存储服务更为合适。
FastDFS相关资源:
开源项目主页:https://code.google.com/archive/p/fastdfs/
源码下载:fastdfs.sourceforge.net
ChinaUnix论坛版块:http://bbs.chinaunix.net/forum-240-1.html
2.2 架构简析
我们可以通过 FastDFS 对文件的上传过程,来初步了解 FastDFS 的基本架构:
① 首先客户端client 发起对 FastDFS 的文件传输动作,是通过连接到某一台 Tracker Server 的指定端口来实现的;
② Tracker Server 根据目前已掌握的信息,来决定选择哪一台 Storage Server ,然后将这个Storage Server 的地址等信息返回给 client;
③ 然后 client 再通过这些信息连接到这台Storage Server,将要上传的文件传送到给 Storage Server上。
FastDFS服务端有两个重要角色:跟踪器(tracker)和存储节点(storage):
跟踪器主要做调度工作,在访问上起负载均衡的作用
存储节点存储文件,完成文件管理的所有功能
Tracker Server 与 Storage Server 之间不直接通信,其基本的信息由配置文件在系统启动加载时获知。
多台 Tracker Server 之间保证了 Tracker 的分布式,Tracker Server 之间是对等的,防止了单点故障。
Storage Server 是分成多个 Group(组),每个 Group 中的Storage 都是互相备份的,也就是说,如果 Group1 有 Storage1、Storage2、Storage3,其容量分别是100GB、200GB、300GB,
那么 Group1 的存储能力是 100GB,而不是 300GB,这就是互相备份的意思。
进一步说,整个 Group 的存储能力由该组中该储能力最小的 Storage 决定。多个 Group 之间的存储方式,可以采用 round robin( 轮训) 、load balanced( 负载均衡) 或指定 Group 的方式。
另一点相对于MS( Master-Slave) 模式的优势,不仅 master 有上面可能提到的单点故障问题,而且 client 与 master 之间可能会出现瓶颈。但 FastDFS 架构中,Tracker Server 不会称为系统瓶颈,数据最终是与一个available 的 Storage Server 进行传输的。
简单总结一下,FastDFS的特点包括:
高可靠性:无单点故障
高吞吐量:只要 Group 足够多,数据流量是足够分散的
3 FastDFS集群 - (了解内容)
简图
- Tracker集群
Tracker server之间是相互平等关系同时提供服务
○ Tracker server不存在单点故障。
客户端请求Tracker server采用轮询方式,如果请求的
tracker无法提供服务则换另一个tracker。
- Storage集群
○ Storage集群采用了分组存储方式, 由一个或多个组构成
○ 集群存储总容量为集群中所有组的存储容量之和
一个组由一台或多台存储服务器组成,组内的Storage server之间是平等关系
○不同组的Storage server之间不会相互通信,同组内的Storage server之间会相互连接进行文件同步,从而保证同组内每个storage上的文件完全一致的。
○ 一个组的存储容量为该组内存储服务器容量最小的那个
- FastDFS的扩容分纵向扩容与横向扩容
○ 横向 扩容
增加容量
添加group组
○ 纵向扩容
数据备份
存储节点中容量最小的那个
当前组的最大容量
所有存储节点组名必须一样