云存储网关文件上传原理解析

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
简介: 本文主要介绍了用户将数据写入到网关共享里以及网关将文件上传到OSS Bucket里的具体过程以及背后的原理。旨在解决用户对于云存储网关缓存机制以及上传原理的一些疑惑。

背景

阿里云云存储网关(文件网关)支持以NFS/SMB的文件协议来访问阿里云对象存储。用户通过挂载网关提供的挂载点,就可以像使用传统NAS一样访问网关的共享了。不同的是用户的数据最终存储于阿里云对象存储,网关提供的是类似缓存的功能以及访问协议的转换。下图是阿里云存储网关的架构图,有需要可以参考网关的帮助文档做更多的了解。
upload1.png

用户将数据写入到网关的共享里面,这部分数据最终会落到OSS Bucket里面。那么这两者之间到底发生了什么呢?网关是如何将用户写入的文件存储到OSS Bucket里面的呢?在线下网关的场景,万一部署网关的机器掉电了,重启之后写入的数据会不会丢掉呢?相信很多用户会或多或少有一些类似疑问。本文将就网关如何上传文件到OSS Bucket的机制做一些解释,希望读完本文之后,这些问题都能够得到解答。

原理解析

用户写入的文件要存储到OSS Bucket里面,主要有下面两个阶段:

1.用户将文件写入到网关共享对应的缓存盘里。
2.网关将文件写入到OSS Bucket里面。

首先可能有些用户会有些疑惑,为什么需要缓存盘以及缓存盘的作用是什么。缓存盘存在的一个主要原因是文件协议和对象协议的区别导致。对象协议只支持一次性的将某个文件上传到OSS Bucket里面,但是文件协议一般是随机写文件的某一个部分。如果本地不设置缓存盘的话,假设有一个1MB的文件写入到共享,然后网关也已经将这个文件上传到OSS Bucket。如果用户对这个文件再追加写了1KB,因为对象存储只支持一次上传一个完整的文件,本地没有缓存盘的情况,必须将原有的1MB再从OSS Bucket上传下来合并完之后再上传。网关本地有缓存盘,基本上这些数据都会作为热数据存在于缓存盘里,可以大大提升上传效率。在掉电的情况下,缓存盘里面写入的数据也不会丢失。当然网关还在缓存盘里面记录了一些自己的元数据,主要是目录结构以及数据在缓存盘的实际存储位置等,从而提供高效的文件系统readdir等元数据操作。关于更多缓存盘的原理,可以参考云存储网关的缓存最佳实践。缓存盘的区域会被分为元数据和数据两部分,当前这两部分的容量比是在创建共享的时候就确定了的。
upload2.png

理解了缓存盘的原理之后,接下来我们来理解用户如何将文件写入到网关共享里面,当然主要就是缓存盘里。假设用户通过NFS/SMB协议写了一个新文件到网关共享里面,严格来说每个用户写IO被返回给客户端之前,网关里面都可能会发生下面几件事:
1.将文件的数据部分写入到缓存盘的数据区域。
2.更新对应文件的元数据,将数据在缓存盘的实际存储位置更新到的文件的相应元数据里面。
3.将文件的元数据,比如文件大小,所有者等元数据更新写入缓存盘的元数据部分。
4.记录一条操作日志标明用户对某个文件做了修改,这个文件需要被后续上传到OSS Bucket。

网关的实现对1/2/3/4整体做了原子性保证,要么都成功,要么都失败,所以完全不用担心会出现数据/元数据不一致的情况。而且网关写缓存盘用的是sync的IO,保证落盘,只要用户收到了某个写IO成功的确认,1/2/3/4肯定就已经完成了,即使网关掉电也不会有任何影响。明白了前述的1/2/3/4也就回答了用户如何将文件写入到共享里面的问题。

接下来就是网关如何将处在缓存盘里面的文件再上传到OSS Bucket里面了。网关的上传主要是依赖于前述中所提到的操作日志。写操作日志也就是前述的4并不一定是每次写IO都会发生的。比较理想的是文件在被关闭的做下检查是不是需要上传,但是NFSv3因为协议层面是没有close只有commit的操作,所以无法做到这一点。对于非NFSv3协议,一些额外的操作也有可能导致文件close发生,所以有可能记录了不止一条操作日志,不过这个对于数据的正确性并没有影响,也不会有太多的额外负担。

网关后台有一些后台任务会定期检查并回放网关的操作日志,如果所有的操作日志都已经排空了,也就意味着数据已经都上传到了OSS Bucket。下图中的“同步延时”就是我们这里说的时间间隔,这个参数在创建以及设置的时候都是可以指定的。
image.png

另外图里面还有几个和上传相关的信息。“同步完成”标明所有的操作日志都已经处理完毕,意味着用户的数据已经写入到了OSS Bucket里面。”上传队列“表明当前剩余还没有处理的操作日志数目,如果为非零值的话,一般同步状态就是“同步未完成”。

对于同一个文件而言,多个写IO有可能产生多个操作日志。当后台任务在处理某个操作日志的时候发现对于这个文件已经有新的操作日志写入了,那么就会略过当前操作日志而在处理下一个同文件的操作日志时候,才真正的执行上传,可以有效的避免多余的OSS PUT API调用。假设同步延时是5s,从用户侧看到的效果,就是连续多个IO产生了多条操作日志,只要任意连续的两条操作日志时间差不超过5s,那么就会只处理新的那条操作日志,类似做到了日志的合并,这种情况只有最后一条日志会真正的产生文件的上传。

小结

本文主要介绍了用户将数据写入到网关共享里以及网关将文件上传到OSS Bucket里的具体过程,以及背后的原理。如果你有文章开头的那些疑惑,看完本文之后,希望你已经得到了答案。

目录
相关文章
|
2月前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
50 3
|
27天前
|
域名解析 网络协议 测试技术
IP、掩码、网关、DNS1、DNS2到底是什么东西,ping telnet测试
理解IP地址、子网掩码、默认网关和DNS服务器的概念是有效管理和配置网络的基础。通过使用ping和telnet命令,可以测试网络连通性和服务状态,快速诊断和解决网络问题。这些工具和概念是网络管理员和IT专业人员日常工作中不可或缺的部分。希望本文提供的详细解释和示例能够帮助您更好地理解和应用这些网络配置和测试工具。
59 2
|
1月前
|
前端开发 JavaScript Java
SpringCloudGateway网关服务实现文件上传功能
SpringCloudGateway网关服务实现文件上传功能
49 1
|
1月前
|
算法 Java 数据库连接
Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性
本文详细介绍了Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性。连接池通过复用数据库连接,显著提升了应用的性能和稳定性。文章还展示了使用HikariCP连接池的示例代码,帮助读者更好地理解和应用这一技术。
46 1
|
16天前
|
JavaScript 前端开发 API
Vue.js响应式原理深度解析:从Vue 2到Vue 3的演进
Vue.js响应式原理深度解析:从Vue 2到Vue 3的演进
45 0
|
2月前
|
数据采集 存储 编解码
一份简明的 Base64 原理解析
Base64 编码器的原理,其实很简单,花一点点时间学会它,你就又消除了一个知识盲点。
75 3
|
22天前
|
API 持续交付 网络架构
深入解析微服务架构:原理、优势与实践
深入解析微服务架构:原理、优势与实践
22 0
|
23天前
|
存储 供应链 物联网
深入解析区块链技术的核心原理与应用前景
深入解析区块链技术的核心原理与应用前景
|
23天前
|
存储 供应链 安全
深度解析区块链技术的核心原理与应用前景
深度解析区块链技术的核心原理与应用前景
31 0
|
1月前
|
供应链 安全 分布式数据库
探索区块链技术:从原理到应用的全面解析
【10月更文挑战第22天】 本文旨在深入浅出地探讨区块链技术,一种近年来引起广泛关注的分布式账本技术。我们将从区块链的基本概念入手,逐步深入到其工作原理、关键技术特点以及在金融、供应链管理等多个领域的实际应用案例。通过这篇文章,读者不仅能够理解区块链技术的核心价值和潜力,还能获得关于如何评估和选择适合自己需求的区块链解决方案的实用建议。
64 0

推荐镜像

更多