EFC&CTO:缓存引发数据不一致问题排查与深度解析

简介: EFC是NAS自研分布式文件系统客户端,近期升级支持多客户端分布式缓存,兼容NAS、CPFS、OSS。因未适配CTO测试,发版时出现data mismatch。排查发现非单纯缓存读旧数据问题,通过NFS挂载验证确认文件系统数据被破坏,挑战超出预期。

EFC(Elastic File Client)是 NAS 自研的分布式文件系统客户端,最近完成了对缓存架构的更新,现在支持多个客户端之间构成分布式缓存,底层支持 NAS、CPFS 和 OSS。由于开发时间较短,一直没有做 NAS 场景 CTO 测试的适配。
CTO:Close-to-Open,指当一个文件被关闭后,再次 open 时,文件系统必须保证之前所有通过 close 操作提交的数据已经持久化到文件系统,并且读取时能获取到最新的、一致的状态。CTO 测试的具体实现是对本地和远端文件系统的文件执行相同的操作,在某些操作后读取两端文件系统的内容,比较是否相同。
● 本地为 EXT4 文件系统,符合 POSIX 语义,远端文件系统跟本地文件系统对比,信任本地文件系统的表现。
● 读缓存的测试是分布式的,单客户端读取由分布式缓存提供服务。
最近忙里偷闲适配了一下,静静等待测试的通过,结果没想到发生了 data mismatch 的错误,因为关闭缓存直读 NAS 的 CTO 测试在每次发版前都会跑一遍。得,缓存的锅铁定没跑了,那咱就来看看这个问题。

二、错误类型判断
读数据错误?
EFC 读缓存在 NAS 场景下会使用 dv(data version)作为缓存的版本号,文件系统数据更新的时候会对 dv 自增。EFC 与文件系统通信的 RPC 会更新本地记录的 dv 信息,EFC 读缓存就会根据客户端手上的 dv 作为版本号从缓存读取数据。
由于这个机制的存在,所以 data mismatch 问题一眼认定为:使用了旧的 dv 读到了缓存里的旧数据。看来问题不大,喝口水压压惊。
CTO 测试会对本地文件和 NAS 上的文件执行相同的操作,并在执行某些操作后检查读到的文件是否一致。这样在读到缓存旧数据的情况下,本地文件(本地 /root 下)和远端文件系统的文件(NAS /mnt1 挂载下)内容是相同的。
由于 mnt1 还是通过 EFC 客户端进行挂载,读取数据还是走的缓存,依然存在读到旧数据的可能。因此,为了排除 EFC 缓存的影响,使用 NFS 协议挂载了 NAS 文件系统后(不通过 EFC 进行挂载),通过 diff 比较本地和 NAS 上的文件内容,结果两者竟然不一致。结果表明,文件系统数据被破坏掉了,也宣告着读到缓存中的旧数据的想法破产。

相关文章
|
3月前
|
设计模式 Java 程序员
推荐书籍
推荐多本Java经典书籍:《Head First Java》适合入门,《Java核心技术》深入巩固基础,《Java编程思想》整合设计模式,适合进阶。并发方面有《Java并发编程之美》等,JVM推荐《深入理解Java虚拟机》与《实战JVM》。体系全面,适合不同阶段学习。
|
机器学习/深度学习 网络架构 人工智能
AI - MoE(Mixture-of-Experts)结构
AI - MoE(Mixture-of-Experts)结构
718 1
|
3月前
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
针对智能体式推理对KVCache的挑战,阿里云Tair KVCache团队联合SGLang社区推出HiCache技术,通过多级存储卸载与全局共享机制,实现缓存命中率翻倍、TTFT降低56%、QPS提升2倍,构建面向长上下文、高并发、多智能体协作的下一代推理缓存基础设施。
703 27
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
|
网络协议 物联网 iOS开发
iOS - App 与外设间的通信方式
1、前言 一般 iOS 开发者做 App 开发大部分时候都是通过 Http(s) 请求跟后台服务器打交道,做一些信息展示和用户交互。很少涉及到去跟外部硬件设备连接的开发。随着近年来车联网和物联网的兴起,智能家居和智能硬件的逐步火热,越来越多的 App 被开发出来,用来跟硬件设备进行来连接,获取硬件相关信息展示或者发送指令控制硬件来提供服务。
2957 0
|
5月前
|
机器学习/深度学习 人工智能 边缘计算
大模型在医疗领域的应用
🌟蒋星熠Jaxonic,AI开发者,深耕医疗大模型领域。见证代码如何重塑医疗:从影像分析到智能诊断,从药物研发到临床决策。分享技术实践与行业洞察,探索AI赋能健康的时代变革。
大模型在医疗领域的应用
|
3月前
|
弹性计算 Kubernetes 安全
已上线!云监控 2.0 面向实体的全链路日志审计与风险溯源
在云端,一次 API 调用背后可能隐藏着一场数据泄露;一个异常进程背后,或许是 AK 泄露引发的链式攻击。传统日志“看得见却看不懂”,而云监控 2.0 日志审计通过 UModel 实体建模,将分散在 ACS、K8s、主机各层的日志自动串联。
348 69
|
3月前
|
SQL 人工智能 自然语言处理
让AI真正懂数据:猫超Matra项目中的AI知识库建设之路
本文介绍猫超基于大模型的AI数据助手Matra实践,构建面向Data Agent的知识库体系,通过知识图谱与ReAct框架实现智能取数,提升数据研发效率与业务分析能力。
590 27
让AI真正懂数据:猫超Matra项目中的AI知识库建设之路
|
人工智能 缓存 运维
探秘 AgentRun丨通过无代码创建的 Agent,如何用高代码进行更新?
AgentRun 打破 AI Agent 开发困局,无代码快速验证想法,一键转高代码实现深度定制。60 秒创建 Agent,支持多模型、工具集成与 Prompt 优化;业务增长后可平滑演进,保留配置生成高质量代码,助力从原型到生产的持续迭代。
385 31
|
3月前
|
jenkins 持续交付 调度
项目《神领物流》
本项目为自研物流系统,基于微服务架构实现智能调度与管控,涵盖用户、快递员、司机多端应用。采用GitFlow管理代码,通过Jenkins实现持续集成,提交后自动构建,保障开发效率与系统稳定,类似顺丰速运模式,面向C端提供高效快递服务。(239字)
|
3月前
|
监控 Java C语言
揭开 Java 容器“消失的内存”之谜:云监控 2.0 SysOM 诊断实践
本文介绍云原生环境下Java应用内存超限问题的诊断与治理,聚焦容器化后常见的JVM堆外内存、JNI内存泄漏、LIBC分配器特性及Linux透明大页等导致OOM的根源,结合阿里云SysOM系统诊断工具,通过真实案例详解如何实现从应用到系统的全链路内存分析,精准定位“消失的内存”,提升资源利用率与稳定性。
217 19

热门文章

最新文章