DVC 使用案例(四):快速且安全的数据缓存仓库

简介: 数据科学中使用的数据集往往超过平常的存储和网络容量。 随着越来越多的人获取相同的数据,存储需求迅速扩大,从而产生重复数据(增加成本)。 并且在每个环境中都等待下载,浪费了大量宝贵的时间。

数据科学中使用的数据集往往超过平常的存储和网络容量。 随着越来越多的人获取相同的数据,存储需求迅速扩大,从而产生重复数据(增加成本)。 并且在每个环境中都等待下载,浪费了大量宝贵的时间。


网络异常,图片无法展示
|


DVC 的内置数据缓存让您可以在全球范围内为整个团队实现一个简单高效的存储层。这种方法有助于:

  • 加速从云上的海量对象存储中传输数据,或在不减慢速度的情况下跨多台机器共享数据。
  • 只需为快速访问的常用数据付费(升级整个存储平台的成本很高)。
  • 当多人处理相同的数据(例如,在共享的开发服务器上)时,避免再次下载数据和复制文件。
  • 在用于机器学习实验的共享服务器上快速切换数据输入(无需重新下载)。


网络异常,图片无法展示
|


通过在附近的位置(网络、外部驱动等)设置共享 DVC 缓存,您可以为所有项目提供一个存储空间。 这可以跨数据集删除重复文件,并通过链接您的工作文件和目录来防止重复传输。 数据安全策略可以可靠地执行,因为数据永远不会离开中央存储。 DVC 还可以帮助您在外部/远程位置备份和共享数据和 ML 模型

现在您的团队共享一个主存储,它可以作为您基础架构的一部分进行独立管理; 根据数据访问速度和成本要求进行配置。 您可以随时灵活地切换存储提供商,而无需更改项目的目录结构或代码。


示例:共享开发服务器

一些团队更喜欢使用一个共享机器来运行他们的实验。 这是一种提高资源利用率(快速传输、中央存储、GPU 访问等)的简单方法。 每个人仍然可以在一个单独的工作空间中工作(例如,在他们的用户主文件夹(/home/{username})中)。


网络异常,图片无法展示
|


首先,配置一个共享的 DVC 缓存。当同事对项目进行更改时,您可以使用 dvc checkout 获得最新结果。 DVC 立即将数据文件和目录链接到您的工作区,因此永远不会移动或复制数据制品。

$ git pull
$ dvc checkout
A       data/new
M       data/labels
复制代码



相关文章
|
2天前
|
存储 缓存 分布式计算
亿级数据如何分钟级别写入缓存?
亿级数据如何分钟级别写入缓存?
32 0
|
2天前
|
缓存 JavaScript
vue使用localStorage缓存数据
vue使用localStorage缓存数据
|
2天前
|
缓存 NoSQL 算法
17- 数据库有1000万数据 ,Redis只能缓存20w数据, 如何保证Redis中的数据都是热点数据 ?
保证Redis中的20w数据为热点数据,可以通过设置Redis的LFU(Least Frequently Used)淘汰策略。这样,当数据库有1000万数据而Redis仅能缓存20w时,LFU会自动移除使用频率最低的项,确保缓存中的数据是最常使用的。
67 8
|
23小时前
|
存储 缓存 JavaScript
vue中缓存页面数据(刷新不丢失)
vue中缓存页面数据(刷新不丢失)
|
2天前
|
存储 缓存 NoSQL
数据缓存,可以尝试用RocksDB了
`shigen`,一个专注于Java、Python、Vue和Shell的博主,探讨了为何在学习阿里云DRM产品时选择RocksDB而非Redis或Guava。RocksDB是一个高速、可配置的存储系统,适用于Flash和HDFS,支持数据压缩。与Redis相比,RocksDB在高速存储和灵活性上更具优势。在尝试使用RocksDB与SpringBoot集成时遇到问题,目前尚未解决。他还对比了RocksDB、Redis和Guava Cache的特性,强调RocksDB适合大规模、高性能场景,而Redis适合内存存储和实时性需求。
16 0
数据缓存,可以尝试用RocksDB了
|
2天前
|
存储 缓存 NoSQL
Redis入门到通关之Redis缓存数据实战
Redis入门到通关之Redis缓存数据实战
23 0
|
2天前
|
缓存 监控 负载均衡
【分布式技术专题】「缓存解决方案」一文带领你好好认识一下企业级别的缓存技术解决方案的运作原理和开发实战(数据缓存不一致分析)
【分布式技术专题】「缓存解决方案」一文带领你好好认识一下企业级别的缓存技术解决方案的运作原理和开发实战(数据缓存不一致分析)
36 2
|
2天前
|
canal 缓存 关系型数据库
Canal实现0侵入同步缓存数据
Canal实现0侵入同步缓存数据
13 0
|
2天前
|
缓存 NoSQL Java
【九】springboot整合redis实现启动服务时热点数据保存在全局和缓存
【九】springboot整合redis实现启动服务时热点数据保存在全局和缓存
53 0