DVC 使用案例(四):快速且安全的数据缓存仓库

简介: 数据科学中使用的数据集往往超过平常的存储和网络容量。 随着越来越多的人获取相同的数据,存储需求迅速扩大,从而产生重复数据(增加成本)。 并且在每个环境中都等待下载,浪费了大量宝贵的时间。

数据科学中使用的数据集往往超过平常的存储和网络容量。 随着越来越多的人获取相同的数据,存储需求迅速扩大,从而产生重复数据(增加成本)。 并且在每个环境中都等待下载,浪费了大量宝贵的时间。


网络异常,图片无法展示
|


DVC 的内置数据缓存让您可以在全球范围内为整个团队实现一个简单高效的存储层。这种方法有助于:

  • 加速从云上的海量对象存储中传输数据,或在不减慢速度的情况下跨多台机器共享数据。
  • 只需为快速访问的常用数据付费(升级整个存储平台的成本很高)。
  • 当多人处理相同的数据(例如,在共享的开发服务器上)时,避免再次下载数据和复制文件。
  • 在用于机器学习实验的共享服务器上快速切换数据输入(无需重新下载)。


网络异常,图片无法展示
|


通过在附近的位置(网络、外部驱动等)设置共享 DVC 缓存,您可以为所有项目提供一个存储空间。 这可以跨数据集删除重复文件,并通过链接您的工作文件和目录来防止重复传输。 数据安全策略可以可靠地执行,因为数据永远不会离开中央存储。 DVC 还可以帮助您在外部/远程位置备份和共享数据和 ML 模型

现在您的团队共享一个主存储,它可以作为您基础架构的一部分进行独立管理; 根据数据访问速度和成本要求进行配置。 您可以随时灵活地切换存储提供商,而无需更改项目的目录结构或代码。


示例:共享开发服务器

一些团队更喜欢使用一个共享机器来运行他们的实验。 这是一种提高资源利用率(快速传输、中央存储、GPU 访问等)的简单方法。 每个人仍然可以在一个单独的工作空间中工作(例如,在他们的用户主文件夹(/home/{username})中)。


网络异常,图片无法展示
|


首先,配置一个共享的 DVC 缓存。当同事对项目进行更改时,您可以使用 dvc checkout 获得最新结果。 DVC 立即将数据文件和目录链接到您的工作区,因此永远不会移动或复制数据制品。

$ git pull
$ dvc checkout
A       data/new
M       data/labels
复制代码



相关文章
|
1月前
|
存储 缓存 NoSQL
数据的存储--Redis缓存存储(一)
数据的存储--Redis缓存存储(一)
|
1月前
|
存储 缓存 NoSQL
数据的存储--Redis缓存存储(二)
数据的存储--Redis缓存存储(二)
数据的存储--Redis缓存存储(二)
|
4月前
|
缓存 NoSQL Java
Redis 缓存与数据库数据不一致问题
Redis 缓存与数据库数据不一致问题
97 3
|
4月前
|
存储 缓存 中间件
|
10天前
|
存储 缓存 算法
分布式缓存有哪些常用的数据分片算法?
【10月更文挑战第25天】在实际应用中,需要根据具体的业务需求、数据特征以及系统的可扩展性要求等因素综合考虑,选择合适的数据分片算法,以实现分布式缓存的高效运行和数据的合理分布。
|
12天前
|
存储 缓存 监控
配置 Webpack 5 持久化缓存时需要注意哪些安全问题?
【10月更文挑战第23天】通过全面、系统地分析和应对安全问题,能够更好地保障 Webpack 5 持久化缓存的安全,为项目的成功构建和运行提供坚实的安全基础。同时,要保持对安全技术的关注和学习,不断提升安全防范能力,以应对日益复杂的安全挑战。
|
18天前
|
缓存 JavaScript 前端开发
vue2基础组件通信案例练习:把案例Todo-list改写成本地缓存
vue2基础组件通信案例练习:把案例Todo-list改写成本地缓存
46 5
|
17天前
|
缓存 JavaScript 前端开发
vue2基础组件通信案例练习:把案例Todo-list改写成本地缓存
vue2基础组件通信案例练习:把案例Todo-list改写成本地缓存
15 1
|
23天前
|
缓存 Java 数据库连接
使用MyBatis缓存的简单案例
MyBatis 是一种流行的持久层框架,支持自定义 SQL 执行、映射及复杂查询。本文介绍了如何在 Spring Boot 项目中集成 MyBatis 并实现一级和二级缓存,以提高查询性能,减少数据库访问。通过具体的电商系统案例,详细讲解了项目搭建、缓存配置、实体类创建、Mapper 编写、Service 层实现及缓存测试等步骤。
|
27天前
|
缓存 监控 前端开发
处理页面缓存中数据不一致的问题
【10月更文挑战第9天】
40 2