云存储网关文件上传原理解析

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 本文主要介绍了用户将数据写入到网关共享里以及网关将文件上传到OSS Bucket里的具体过程以及背后的原理。旨在解决用户对于云存储网关缓存机制以及上传原理的一些疑惑。

背景

阿里云云存储网关(文件网关)支持以NFS/SMB的文件协议来访问阿里云对象存储。用户通过挂载网关提供的挂载点,就可以像使用传统NAS一样访问网关的共享了。不同的是用户的数据最终存储于阿里云对象存储,网关提供的是类似缓存的功能以及访问协议的转换。下图是阿里云存储网关的架构图,有需要可以参考网关的帮助文档做更多的了解。
upload1.png

用户将数据写入到网关的共享里面,这部分数据最终会落到OSS Bucket里面。那么这两者之间到底发生了什么呢?网关是如何将用户写入的文件存储到OSS Bucket里面的呢?在线下网关的场景,万一部署网关的机器掉电了,重启之后写入的数据会不会丢掉呢?相信很多用户会或多或少有一些类似疑问。本文将就网关如何上传文件到OSS Bucket的机制做一些解释,希望读完本文之后,这些问题都能够得到解答。

原理解析

用户写入的文件要存储到OSS Bucket里面,主要有下面两个阶段:

1.用户将文件写入到网关共享对应的缓存盘里。
2.网关将文件写入到OSS Bucket里面。

首先可能有些用户会有些疑惑,为什么需要缓存盘以及缓存盘的作用是什么。缓存盘存在的一个主要原因是文件协议和对象协议的区别导致。对象协议只支持一次性的将某个文件上传到OSS Bucket里面,但是文件协议一般是随机写文件的某一个部分。如果本地不设置缓存盘的话,假设有一个1MB的文件写入到共享,然后网关也已经将这个文件上传到OSS Bucket。如果用户对这个文件再追加写了1KB,因为对象存储只支持一次上传一个完整的文件,本地没有缓存盘的情况,必须将原有的1MB再从OSS Bucket上传下来合并完之后再上传。网关本地有缓存盘,基本上这些数据都会作为热数据存在于缓存盘里,可以大大提升上传效率。在掉电的情况下,缓存盘里面写入的数据也不会丢失。当然网关还在缓存盘里面记录了一些自己的元数据,主要是目录结构以及数据在缓存盘的实际存储位置等,从而提供高效的文件系统readdir等元数据操作。关于更多缓存盘的原理,可以参考云存储网关的缓存最佳实践。缓存盘的区域会被分为元数据和数据两部分,当前这两部分的容量比是在创建共享的时候就确定了的。
upload2.png

理解了缓存盘的原理之后,接下来我们来理解用户如何将文件写入到网关共享里面,当然主要就是缓存盘里。假设用户通过NFS/SMB协议写了一个新文件到网关共享里面,严格来说每个用户写IO被返回给客户端之前,网关里面都可能会发生下面几件事:
1.将文件的数据部分写入到缓存盘的数据区域。
2.更新对应文件的元数据,将数据在缓存盘的实际存储位置更新到的文件的相应元数据里面。
3.将文件的元数据,比如文件大小,所有者等元数据更新写入缓存盘的元数据部分。
4.记录一条操作日志标明用户对某个文件做了修改,这个文件需要被后续上传到OSS Bucket。

网关的实现对1/2/3/4整体做了原子性保证,要么都成功,要么都失败,所以完全不用担心会出现数据/元数据不一致的情况。而且网关写缓存盘用的是sync的IO,保证落盘,只要用户收到了某个写IO成功的确认,1/2/3/4肯定就已经完成了,即使网关掉电也不会有任何影响。明白了前述的1/2/3/4也就回答了用户如何将文件写入到共享里面的问题。

接下来就是网关如何将处在缓存盘里面的文件再上传到OSS Bucket里面了。网关的上传主要是依赖于前述中所提到的操作日志。写操作日志也就是前述的4并不一定是每次写IO都会发生的。比较理想的是文件在被关闭的做下检查是不是需要上传,但是NFSv3因为协议层面是没有close只有commit的操作,所以无法做到这一点。对于非NFSv3协议,一些额外的操作也有可能导致文件close发生,所以有可能记录了不止一条操作日志,不过这个对于数据的正确性并没有影响,也不会有太多的额外负担。

网关后台有一些后台任务会定期检查并回放网关的操作日志,如果所有的操作日志都已经排空了,也就意味着数据已经都上传到了OSS Bucket。下图中的“同步延时”就是我们这里说的时间间隔,这个参数在创建以及设置的时候都是可以指定的。
image.png

另外图里面还有几个和上传相关的信息。“同步完成”标明所有的操作日志都已经处理完毕,意味着用户的数据已经写入到了OSS Bucket里面。”上传队列“表明当前剩余还没有处理的操作日志数目,如果为非零值的话,一般同步状态就是“同步未完成”。

对于同一个文件而言,多个写IO有可能产生多个操作日志。当后台任务在处理某个操作日志的时候发现对于这个文件已经有新的操作日志写入了,那么就会略过当前操作日志而在处理下一个同文件的操作日志时候,才真正的执行上传,可以有效的避免多余的OSS PUT API调用。假设同步延时是5s,从用户侧看到的效果,就是连续多个IO产生了多条操作日志,只要任意连续的两条操作日志时间差不超过5s,那么就会只处理新的那条操作日志,类似做到了日志的合并,这种情况只有最后一条日志会真正的产生文件的上传。

小结

本文主要介绍了用户将数据写入到网关共享里以及网关将文件上传到OSS Bucket里的具体过程,以及背后的原理。如果你有文章开头的那些疑惑,看完本文之后,希望你已经得到了答案。

目录
相关文章
|
3天前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
15 3
|
15天前
|
前端开发 Java 应用服务中间件
21张图解析Tomcat运行原理与架构全貌
【10月更文挑战第2天】本文通过21张图详细解析了Tomcat的运行原理与架构。Tomcat作为Java Web开发中最流行的Web服务器之一,其架构设计精妙。文章首先介绍了Tomcat的基本组件:Connector(连接器)负责网络通信,Container(容器)处理业务逻辑。连接器内部包括EndPoint、Processor和Adapter等组件,分别处理通信、协议解析和请求封装。容器采用多级结构(Engine、Host、Context、Wrapper),并通过Mapper组件进行请求路由。文章还探讨了Tomcat的生命周期管理、启动与停止机制,并通过源码分析展示了请求处理流程。
|
12天前
|
开发框架 缓存 前端开发
electron-builder 解析:你了解其背后的构建原理吗?
本文首发于微信公众号“前端徐徐”,详细解析了 electron-builder 的工作原理。electron-builder 是一个专为整合前端项目与 Electron 应用的打包工具,负责管理依赖、生成配置文件及多平台构建。文章介绍了前端项目的构建流程、配置信息收集、依赖处理、asar 打包、附加资源准备、Electron 打包、代码签名、资源压缩、卸载程序生成、安装程序生成及最终安装包输出等环节。通过剖析 electron-builder 的原理,帮助开发者更好地理解和掌握跨端桌面应用的构建流程。
35 2
|
18天前
|
搜索推荐 Shell
解析排序算法:十大排序方法的工作原理与性能比较
解析排序算法:十大排序方法的工作原理与性能比较
37 9
|
5天前
|
前端开发 JavaScript UED
axios取消请求CancelToken的原理解析及用法示例
axios取消请求CancelToken的原理解析及用法示例
14 0
|
5天前
|
弹性计算 网络协议 网络安全
内网DNS解析&VPN网关联动实现云上访问云下资源
内网DNS解析&VPN网关联动实现云上访问云下资源
|
8天前
|
存储 缓存 数据处理
深度解析:Hologres分布式存储引擎设计原理及其优化策略
【10月更文挑战第9天】在大数据时代,数据的规模和复杂性不断增加,这对数据库系统提出了更高的要求。传统的单机数据库难以应对海量数据处理的需求,而分布式数据库通过水平扩展提供了更好的解决方案。阿里云推出的Hologres是一个实时交互式分析服务,它结合了OLAP(在线分析处理)与OLTP(在线事务处理)的优势,能够在大规模数据集上提供低延迟的数据查询能力。本文将深入探讨Hologres分布式存储引擎的设计原理,并介绍一些关键的优化策略。
37 0
|
13天前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
30 0
|
13天前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
58 0
|
16天前
|
JSON 应用服务中间件 API
使用 Gin 框架实现文件上传:机制与深入解析
使用 Gin 框架实现文件上传:机制与深入解析

推荐镜像

更多