DVC 使用案例(四):快速且安全的数据缓存仓库

简介: 数据科学中使用的数据集往往超过平常的存储和网络容量。 随着越来越多的人获取相同的数据,存储需求迅速扩大,从而产生重复数据(增加成本)。 并且在每个环境中都等待下载,浪费了大量宝贵的时间。

数据科学中使用的数据集往往超过平常的存储和网络容量。 随着越来越多的人获取相同的数据,存储需求迅速扩大,从而产生重复数据(增加成本)。 并且在每个环境中都等待下载,浪费了大量宝贵的时间。


网络异常,图片无法展示
|


DVC 的内置数据缓存让您可以在全球范围内为整个团队实现一个简单高效的存储层。这种方法有助于:

  • 加速从云上的海量对象存储中传输数据,或在不减慢速度的情况下跨多台机器共享数据。
  • 只需为快速访问的常用数据付费(升级整个存储平台的成本很高)。
  • 当多人处理相同的数据(例如,在共享的开发服务器上)时,避免再次下载数据和复制文件。
  • 在用于机器学习实验的共享服务器上快速切换数据输入(无需重新下载)。


网络异常,图片无法展示
|


通过在附近的位置(网络、外部驱动等)设置共享 DVC 缓存,您可以为所有项目提供一个存储空间。 这可以跨数据集删除重复文件,并通过链接您的工作文件和目录来防止重复传输。 数据安全策略可以可靠地执行,因为数据永远不会离开中央存储。 DVC 还可以帮助您在外部/远程位置备份和共享数据和 ML 模型

现在您的团队共享一个主存储,它可以作为您基础架构的一部分进行独立管理; 根据数据访问速度和成本要求进行配置。 您可以随时灵活地切换存储提供商,而无需更改项目的目录结构或代码。


示例:共享开发服务器

一些团队更喜欢使用一个共享机器来运行他们的实验。 这是一种提高资源利用率(快速传输、中央存储、GPU 访问等)的简单方法。 每个人仍然可以在一个单独的工作空间中工作(例如,在他们的用户主文件夹(/home/{username})中)。


网络异常,图片无法展示
|


首先,配置一个共享的 DVC 缓存。当同事对项目进行更改时,您可以使用 dvc checkout 获得最新结果。 DVC 立即将数据文件和目录链接到您的工作区,因此永远不会移动或复制数据制品。

$ git pull
$ dvc checkout
A       data/new
M       data/labels
复制代码



相关文章
|
存储 缓存 NoSQL
数据的存储--Redis缓存存储(一)
数据的存储--Redis缓存存储(一)
474 1
|
6月前
|
Web App开发 存储 缓存
如何精准清除特定类型或标签的缓存数据?
如何精准清除特定类型或标签的缓存数据?
528 57
|
8月前
|
缓存 NoSQL 关系型数据库
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
|
5月前
|
存储 缓存 监控
一次缓存引发的文件系统数据不一致问题排查与深度解析
本文详述了一次由自研分布式文件系统客户端 EFC 的缓存架构更新所引发的严重数据不一致问题的完整排查过程。
一次缓存引发的文件系统数据不一致问题排查与深度解析
|
8月前
|
消息中间件 缓存 NoSQL
基于Spring Data Redis与RabbitMQ实现字符串缓存和计数功能(数据同步)
总的来说,借助Spring Data Redis和RabbitMQ,我们可以轻松实现字符串缓存和计数的功能。而关键的部分不过是一些"厨房的套路",一旦你掌握了这些套路,那么你就像厨师一样可以准备出一道道饕餮美食了。通过这种方式促进数据处理效率无疑将大大提高我们的生产力。
271 32
|
存储 缓存 NoSQL
数据的存储--Redis缓存存储(二)
数据的存储--Redis缓存存储(二)
186 2
数据的存储--Redis缓存存储(二)
|
10月前
|
机器学习/深度学习 人工智能 缓存
MHA2MLA:0.3%数据微调!复旦团队开源推理加速神器,KV缓存狂降96.87%
MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效微调方法,通过引入多头潜在注意力机制(MLA),显著优化基于Transformer的LLM推理效率,降低推理成本。
391 1
MHA2MLA:0.3%数据微调!复旦团队开源推理加速神器,KV缓存狂降96.87%
|
存储 缓存 监控
Linux缓存管理:如何安全地清理系统缓存
在Linux系统中,内存管理至关重要。本文详细介绍了如何安全地清理系统缓存,特别是通过使用`/proc/sys/vm/drop_caches`接口。内容包括清理缓存的原因、步骤、注意事项和最佳实践,帮助你在必要时优化系统性能。
1242 78
|
缓存 监控 前端开发
处理页面缓存中数据不一致的问题
【10月更文挑战第9天】
487 122
|
11月前
|
存储 数据挖掘 虚拟化
vsan数据恢复—vsan缓存盘故障导致虚拟机磁盘文件丢失的数据恢复案例
VMware vsan架构采用2+1模式。每台设备只有一个磁盘组(7+1),缓存盘的大小为240GB,容量盘的大小为1.2TB。 由于其中一台主机(0号组设备)的缓存盘出现故障,导致VMware虚拟化环境中搭建的2台虚拟机的磁盘文件(vmdk)丢失。