云存储网关文件上传原理解析

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 本文主要介绍了用户将数据写入到网关共享里以及网关将文件上传到OSS Bucket里的具体过程以及背后的原理。旨在解决用户对于云存储网关缓存机制以及上传原理的一些疑惑。

背景

阿里云云存储网关(文件网关)支持以NFS/SMB的文件协议来访问阿里云对象存储。用户通过挂载网关提供的挂载点,就可以像使用传统NAS一样访问网关的共享了。不同的是用户的数据最终存储于阿里云对象存储,网关提供的是类似缓存的功能以及访问协议的转换。下图是阿里云存储网关的架构图,有需要可以参考网关的帮助文档做更多的了解。
upload1.png

用户将数据写入到网关的共享里面,这部分数据最终会落到OSS Bucket里面。那么这两者之间到底发生了什么呢?网关是如何将用户写入的文件存储到OSS Bucket里面的呢?在线下网关的场景,万一部署网关的机器掉电了,重启之后写入的数据会不会丢掉呢?相信很多用户会或多或少有一些类似疑问。本文将就网关如何上传文件到OSS Bucket的机制做一些解释,希望读完本文之后,这些问题都能够得到解答。

原理解析

用户写入的文件要存储到OSS Bucket里面,主要有下面两个阶段:

1.用户将文件写入到网关共享对应的缓存盘里。
2.网关将文件写入到OSS Bucket里面。

首先可能有些用户会有些疑惑,为什么需要缓存盘以及缓存盘的作用是什么。缓存盘存在的一个主要原因是文件协议和对象协议的区别导致。对象协议只支持一次性的将某个文件上传到OSS Bucket里面,但是文件协议一般是随机写文件的某一个部分。如果本地不设置缓存盘的话,假设有一个1MB的文件写入到共享,然后网关也已经将这个文件上传到OSS Bucket。如果用户对这个文件再追加写了1KB,因为对象存储只支持一次上传一个完整的文件,本地没有缓存盘的情况,必须将原有的1MB再从OSS Bucket上传下来合并完之后再上传。网关本地有缓存盘,基本上这些数据都会作为热数据存在于缓存盘里,可以大大提升上传效率。在掉电的情况下,缓存盘里面写入的数据也不会丢失。当然网关还在缓存盘里面记录了一些自己的元数据,主要是目录结构以及数据在缓存盘的实际存储位置等,从而提供高效的文件系统readdir等元数据操作。关于更多缓存盘的原理,可以参考云存储网关的缓存最佳实践。缓存盘的区域会被分为元数据和数据两部分,当前这两部分的容量比是在创建共享的时候就确定了的。
upload2.png

理解了缓存盘的原理之后,接下来我们来理解用户如何将文件写入到网关共享里面,当然主要就是缓存盘里。假设用户通过NFS/SMB协议写了一个新文件到网关共享里面,严格来说每个用户写IO被返回给客户端之前,网关里面都可能会发生下面几件事:
1.将文件的数据部分写入到缓存盘的数据区域。
2.更新对应文件的元数据,将数据在缓存盘的实际存储位置更新到的文件的相应元数据里面。
3.将文件的元数据,比如文件大小,所有者等元数据更新写入缓存盘的元数据部分。
4.记录一条操作日志标明用户对某个文件做了修改,这个文件需要被后续上传到OSS Bucket。

网关的实现对1/2/3/4整体做了原子性保证,要么都成功,要么都失败,所以完全不用担心会出现数据/元数据不一致的情况。而且网关写缓存盘用的是sync的IO,保证落盘,只要用户收到了某个写IO成功的确认,1/2/3/4肯定就已经完成了,即使网关掉电也不会有任何影响。明白了前述的1/2/3/4也就回答了用户如何将文件写入到共享里面的问题。

接下来就是网关如何将处在缓存盘里面的文件再上传到OSS Bucket里面了。网关的上传主要是依赖于前述中所提到的操作日志。写操作日志也就是前述的4并不一定是每次写IO都会发生的。比较理想的是文件在被关闭的做下检查是不是需要上传,但是NFSv3因为协议层面是没有close只有commit的操作,所以无法做到这一点。对于非NFSv3协议,一些额外的操作也有可能导致文件close发生,所以有可能记录了不止一条操作日志,不过这个对于数据的正确性并没有影响,也不会有太多的额外负担。

网关后台有一些后台任务会定期检查并回放网关的操作日志,如果所有的操作日志都已经排空了,也就意味着数据已经都上传到了OSS Bucket。下图中的“同步延时”就是我们这里说的时间间隔,这个参数在创建以及设置的时候都是可以指定的。
image.png

另外图里面还有几个和上传相关的信息。“同步完成”标明所有的操作日志都已经处理完毕,意味着用户的数据已经写入到了OSS Bucket里面。”上传队列“表明当前剩余还没有处理的操作日志数目,如果为非零值的话,一般同步状态就是“同步未完成”。

对于同一个文件而言,多个写IO有可能产生多个操作日志。当后台任务在处理某个操作日志的时候发现对于这个文件已经有新的操作日志写入了,那么就会略过当前操作日志而在处理下一个同文件的操作日志时候,才真正的执行上传,可以有效的避免多余的OSS PUT API调用。假设同步延时是5s,从用户侧看到的效果,就是连续多个IO产生了多条操作日志,只要任意连续的两条操作日志时间差不超过5s,那么就会只处理新的那条操作日志,类似做到了日志的合并,这种情况只有最后一条日志会真正的产生文件的上传。

小结

本文主要介绍了用户将数据写入到网关共享里以及网关将文件上传到OSS Bucket里的具体过程,以及背后的原理。如果你有文章开头的那些疑惑,看完本文之后,希望你已经得到了答案。

目录
相关文章
|
7天前
|
存储 缓存 算法
HashMap深度解析:从原理到实战
HashMap,作为Java集合框架中的一个核心组件,以其高效的键值对存储和检索机制,在软件开发中扮演着举足轻重的角色。作为一名资深的AI工程师,深入理解HashMap的原理、历史、业务场景以及实战应用,对于提升数据处理和算法实现的效率至关重要。本文将通过手绘结构图、流程图,结合Java代码示例,全方位解析HashMap,帮助读者从理论到实践全面掌握这一关键技术。
44 13
|
25天前
|
运维 持续交付 云计算
深入解析云计算中的微服务架构:原理、优势与实践
深入解析云计算中的微服务架构:原理、优势与实践
56 1
|
1天前
|
网络协议 安全 网络安全
探索网络模型与协议:从OSI到HTTPs的原理解析
OSI七层网络模型和TCP/IP四层模型是理解和设计计算机网络的框架。OSI模型包括物理层、数据链路层、网络层、传输层、会话层、表示层和应用层,而TCP/IP模型则简化为链路层、网络层、传输层和 HTTPS协议基于HTTP并通过TLS/SSL加密数据,确保安全传输。其连接过程涉及TCP三次握手、SSL证书验证、对称密钥交换等步骤,以保障通信的安全性和完整性。数字信封技术使用非对称加密和数字证书确保数据的机密性和身份认证。 浏览器通过Https访问网站的过程包括输入网址、DNS解析、建立TCP连接、发送HTTPS请求、接收响应、验证证书和解析网页内容等步骤,确保用户与服务器之间的安全通信。
12 1
|
28天前
|
前端开发 JavaScript Java
SpringCloudGateway网关服务实现文件上传功能
SpringCloudGateway网关服务实现文件上传功能
55 9
|
1月前
|
运维 持续交付 虚拟化
深入解析Docker容器化技术的核心原理
深入解析Docker容器化技术的核心原理
46 1
|
1月前
|
域名解析 网络协议 测试技术
IP、掩码、网关、DNS1、DNS2到底是什么东西,ping telnet测试
理解IP地址、子网掩码、默认网关和DNS服务器的概念是有效管理和配置网络的基础。通过使用ping和telnet命令,可以测试网络连通性和服务状态,快速诊断和解决网络问题。这些工具和概念是网络管理员和IT专业人员日常工作中不可或缺的部分。希望本文提供的详细解释和示例能够帮助您更好地理解和应用这些网络配置和测试工具。
97 2
|
26天前
|
存储 供应链 算法
深入解析区块链技术的核心原理与应用前景
深入解析区块链技术的核心原理与应用前景
51 0
|
29天前
|
JavaScript 前端开发 API
Vue.js响应式原理深度解析:从Vue 2到Vue 3的演进
Vue.js响应式原理深度解析:从Vue 2到Vue 3的演进
56 0
|
1月前
|
API 持续交付 网络架构
深入解析微服务架构:原理、优势与实践
深入解析微服务架构:原理、优势与实践
30 0
|
1月前
|
存储 供应链 物联网
深入解析区块链技术的核心原理与应用前景
深入解析区块链技术的核心原理与应用前景

推荐镜像

更多