云存储网关文件上传原理解析

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
日志服务 SLS,月写入数据量 50GB 1个月
简介: 本文主要介绍了用户将数据写入到网关共享里以及网关将文件上传到OSS Bucket里的具体过程以及背后的原理。旨在解决用户对于云存储网关缓存机制以及上传原理的一些疑惑。

背景

阿里云云存储网关(文件网关)支持以NFS/SMB的文件协议来访问阿里云对象存储。用户通过挂载网关提供的挂载点,就可以像使用传统NAS一样访问网关的共享了。不同的是用户的数据最终存储于阿里云对象存储,网关提供的是类似缓存的功能以及访问协议的转换。下图是阿里云存储网关的架构图,有需要可以参考网关的帮助文档做更多的了解。
upload1.png

用户将数据写入到网关的共享里面,这部分数据最终会落到OSS Bucket里面。那么这两者之间到底发生了什么呢?网关是如何将用户写入的文件存储到OSS Bucket里面的呢?在线下网关的场景,万一部署网关的机器掉电了,重启之后写入的数据会不会丢掉呢?相信很多用户会或多或少有一些类似疑问。本文将就网关如何上传文件到OSS Bucket的机制做一些解释,希望读完本文之后,这些问题都能够得到解答。

原理解析

用户写入的文件要存储到OSS Bucket里面,主要有下面两个阶段:

1.用户将文件写入到网关共享对应的缓存盘里。
2.网关将文件写入到OSS Bucket里面。

首先可能有些用户会有些疑惑,为什么需要缓存盘以及缓存盘的作用是什么。缓存盘存在的一个主要原因是文件协议和对象协议的区别导致。对象协议只支持一次性的将某个文件上传到OSS Bucket里面,但是文件协议一般是随机写文件的某一个部分。如果本地不设置缓存盘的话,假设有一个1MB的文件写入到共享,然后网关也已经将这个文件上传到OSS Bucket。如果用户对这个文件再追加写了1KB,因为对象存储只支持一次上传一个完整的文件,本地没有缓存盘的情况,必须将原有的1MB再从OSS Bucket上传下来合并完之后再上传。网关本地有缓存盘,基本上这些数据都会作为热数据存在于缓存盘里,可以大大提升上传效率。在掉电的情况下,缓存盘里面写入的数据也不会丢失。当然网关还在缓存盘里面记录了一些自己的元数据,主要是目录结构以及数据在缓存盘的实际存储位置等,从而提供高效的文件系统readdir等元数据操作。关于更多缓存盘的原理,可以参考云存储网关的缓存最佳实践。缓存盘的区域会被分为元数据和数据两部分,当前这两部分的容量比是在创建共享的时候就确定了的。
upload2.png

理解了缓存盘的原理之后,接下来我们来理解用户如何将文件写入到网关共享里面,当然主要就是缓存盘里。假设用户通过NFS/SMB协议写了一个新文件到网关共享里面,严格来说每个用户写IO被返回给客户端之前,网关里面都可能会发生下面几件事:
1.将文件的数据部分写入到缓存盘的数据区域。
2.更新对应文件的元数据,将数据在缓存盘的实际存储位置更新到的文件的相应元数据里面。
3.将文件的元数据,比如文件大小,所有者等元数据更新写入缓存盘的元数据部分。
4.记录一条操作日志标明用户对某个文件做了修改,这个文件需要被后续上传到OSS Bucket。

网关的实现对1/2/3/4整体做了原子性保证,要么都成功,要么都失败,所以完全不用担心会出现数据/元数据不一致的情况。而且网关写缓存盘用的是sync的IO,保证落盘,只要用户收到了某个写IO成功的确认,1/2/3/4肯定就已经完成了,即使网关掉电也不会有任何影响。明白了前述的1/2/3/4也就回答了用户如何将文件写入到共享里面的问题。

接下来就是网关如何将处在缓存盘里面的文件再上传到OSS Bucket里面了。网关的上传主要是依赖于前述中所提到的操作日志。写操作日志也就是前述的4并不一定是每次写IO都会发生的。比较理想的是文件在被关闭的做下检查是不是需要上传,但是NFSv3因为协议层面是没有close只有commit的操作,所以无法做到这一点。对于非NFSv3协议,一些额外的操作也有可能导致文件close发生,所以有可能记录了不止一条操作日志,不过这个对于数据的正确性并没有影响,也不会有太多的额外负担。

网关后台有一些后台任务会定期检查并回放网关的操作日志,如果所有的操作日志都已经排空了,也就意味着数据已经都上传到了OSS Bucket。下图中的“同步延时”就是我们这里说的时间间隔,这个参数在创建以及设置的时候都是可以指定的。
image.png

另外图里面还有几个和上传相关的信息。“同步完成”标明所有的操作日志都已经处理完毕,意味着用户的数据已经写入到了OSS Bucket里面。”上传队列“表明当前剩余还没有处理的操作日志数目,如果为非零值的话,一般同步状态就是“同步未完成”。

对于同一个文件而言,多个写IO有可能产生多个操作日志。当后台任务在处理某个操作日志的时候发现对于这个文件已经有新的操作日志写入了,那么就会略过当前操作日志而在处理下一个同文件的操作日志时候,才真正的执行上传,可以有效的避免多余的OSS PUT API调用。假设同步延时是5s,从用户侧看到的效果,就是连续多个IO产生了多条操作日志,只要任意连续的两条操作日志时间差不超过5s,那么就会只处理新的那条操作日志,类似做到了日志的合并,这种情况只有最后一条日志会真正的产生文件的上传。

小结

本文主要介绍了用户将数据写入到网关共享里以及网关将文件上传到OSS Bucket里的具体过程,以及背后的原理。如果你有文章开头的那些疑惑,看完本文之后,希望你已经得到了答案。

目录
相关文章
|
3月前
|
安全 算法 网络协议
解析:HTTPS通过SSL/TLS证书加密的原理与逻辑
HTTPS通过SSL/TLS证书加密,结合对称与非对称加密及数字证书验证实现安全通信。首先,服务器发送含公钥的数字证书,客户端验证其合法性后生成随机数并用公钥加密发送给服务器,双方据此生成相同的对称密钥。后续通信使用对称加密确保高效性和安全性。同时,数字证书验证服务器身份,防止中间人攻击;哈希算法和数字签名确保数据完整性,防止篡改。整个流程保障了身份认证、数据加密和完整性保护。
|
1月前
|
存储 前端开发 JavaScript
调用DeepSeek API增强版纯前端实现方案,支持文件上传和内容解析功能
本方案基于DeepSeek API增强版,提供纯前端实现的文件上传与内容解析功能。通过HTML和JavaScript,用户可选择文件并调用API完成上传及解析操作。方案支持多种文件格式(如PDF、TXT、DOCX),具备简化架构、提高响应速度和增强安全性等优势。示例代码展示了文件上传、内容解析及结果展示的完整流程,适合快速构建高效Web应用。开发者可根据需求扩展功能,满足多样化场景要求。
|
2月前
|
机器学习/深度学习 数据可视化 PyTorch
深入解析图神经网络注意力机制:数学原理与可视化实现
本文深入解析了图神经网络(GNNs)中自注意力机制的内部运作原理,通过可视化和数学推导揭示其工作机制。文章采用“位置-转移图”概念框架,并使用NumPy实现代码示例,逐步拆解自注意力层的计算过程。文中详细展示了从节点特征矩阵、邻接矩阵到生成注意力权重的具体步骤,并通过四个类(GAL1至GAL4)模拟了整个计算流程。最终,结合实际PyTorch Geometric库中的代码,对比分析了核心逻辑,为理解GNN自注意力机制提供了清晰的学习路径。
282 7
深入解析图神经网络注意力机制:数学原理与可视化实现
|
2月前
|
机器学习/深度学习 缓存 自然语言处理
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
Tiktokenizer 是一款现代分词工具,旨在高效、智能地将文本转换为机器可处理的离散单元(token)。它不仅超越了传统的空格分割和正则表达式匹配方法,还结合了上下文感知能力,适应复杂语言结构。Tiktokenizer 的核心特性包括自适应 token 分割、高效编码能力和出色的可扩展性,使其适用于从聊天机器人到大规模文本分析等多种应用场景。通过模块化设计,Tiktokenizer 确保了代码的可重用性和维护性,并在分词精度、处理效率和灵活性方面表现出色。此外,它支持多语言处理、表情符号识别和领域特定文本处理,能够应对各种复杂的文本输入需求。
260 6
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
|
2月前
|
传感器 人工智能 监控
反向寻车系统怎么做?基本原理与系统组成解析
本文通过反向寻车系统的核心组成部分与技术分析,阐述反向寻车系统的工作原理,适用于适用于商场停车场、医院停车场及火车站停车场等。如需获取智慧停车场反向寻车技术方案前往文章最下方获取,如有项目合作及技术交流欢迎私信作者。
137 2
|
3月前
|
机器学习/深度学习 算法 数据挖掘
解析静态代理IP改善游戏体验的原理
静态代理IP通过提高网络稳定性和降低延迟,优化游戏体验。具体表现在加快游戏网络速度、实时玩家数据分析、优化游戏设计、简化更新流程、维护网络稳定性、提高连接可靠性、支持地区特性及提升访问速度等方面,确保更流畅、高效的游戏体验。
114 22
解析静态代理IP改善游戏体验的原理
|
3月前
|
编解码 缓存 Prometheus
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
本期内容为「ximagine」频道《显示器测试流程》的规范及标准,我们主要使用Calman、DisplayCAL、i1Profiler等软件及CA410、Spyder X、i1Pro 2等设备,是我们目前制作内容数据的重要来源,我们深知所做的仍是比较表面的活儿,和工程师、科研人员相比有着不小的差距,测试并不复杂,但是相当繁琐,收集整理测试无不花费大量时间精力,内容不完善或者有错误的地方,希望大佬指出我们好改进!
230 16
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
|
3月前
|
Java 数据库 开发者
详细介绍SpringBoot启动流程及配置类解析原理
通过对 Spring Boot 启动流程及配置类解析原理的深入分析,我们可以看到 Spring Boot 在启动时的灵活性和可扩展性。理解这些机制不仅有助于开发者更好地使用 Spring Boot 进行应用开发,还能够在面对问题时,迅速定位和解决问题。希望本文能为您在 Spring Boot 开发过程中提供有效的指导和帮助。
148 12
|
3月前
|
开发框架 监控 JavaScript
解锁鸿蒙装饰器:应用、原理与优势全解析
ArkTS提供了多维度的状态管理机制。在UI开发框架中,与UI相关联的数据可以在组件内使用,也可以在不同组件层级间传递,比如父子组件之间、爷孙组件之间,还可以在应用全局范围内传递或跨设备传递。
91 2
|
4月前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。

推荐镜像

更多