DVC 使用指南:常用术语

简介: 依赖(Dependency):记录在 Stage 的deps部分(在 dvc.yaml 中)或 .dvc 文件中的文件或目录(可能由DVC跟踪)。请参阅 dvc run。当任何依赖项发生变化时,Stage 就会失效(被认为已过时)。
  • 依赖(Dependency):记录在 Stage 的deps部分(在 dvc.yaml 中)或 .dvc 文件中的文件或目录(可能由DVC跟踪)。请参阅 dvc run。当任何依赖项发生变化时,Stage 就会失效(被认为已过时)。
  • DVC 缓存:DVC 缓存是 DVC 跟踪的文件和目录及其不同版本的隐藏存储(默认在 .dvc/cache 中)。
  • DVC 文件dvc.yamldvc.lock.dvc 文件。 DVC 命令在工作空间中创建这些以编码流水线和跟踪数据以进行版本控制。请参阅 dvc reprodvc add
  • DVC 项目:通过在工作区(通常是 Git 存储库)中运行 dvc init 进行初始化。它将包含 .dvc/ 目录,以及使用 dvc adddvc run 等命令创建 dvc.yaml.dvc 文件。
  • 实验:在数据流水线或 ML 模型开发期间尝试达到期望(更好/有趣)的结果。 DVC 旨在帮助管理实验,它具有内置的机制,如:运行缓存dvc exp 命令(在 DVC 2.0 及更高版本上可用)等。
  • 外部依赖:一个 Stage 依赖(dvc.yaml 或 Import Stage.dvc 文件中的 deps 字段),其来源来自外部源,例如:HTTPSSHAmazon S3Google Cloud Storage远程位置,甚至其他 DVC 存储库。请参阅外部依赖
  • 文件链接:一种让文件出现在多个不同文件夹中而不占用存储磁盘上更多物理空间的方法。这种方式既快速又经济。有关文件链接的更多信息,请参阅大型数据集优化dvc config cache
  • Import Stage:使用 dvc importdvc import-url 创建的 .dvc 文件,表示来自外部源的文件或目录。它具有外部依赖(数据源)、隐式下载命令以及作为输出的导入数据本身。
  • 输出:由 DVC 跟踪的文件或目录,记录在 Stage (在 dvc.yaml 中)或 .dvc 文件的 outs 部分。输出通常是 Stage 的结果。请参阅 dvc add, dvc run, dvc import等。
  • 参数依赖:流水线 Stage (在 dvc.yaml 中定义)可以依赖于任意 YAML、JSON、TOML 或 Python 文件(默认为 params.yaml)中的特定值。当任何参数值发生变化时,Stage 就无效了(被认为是过时的)。请参阅 dvc params
  • 流水线(DAG):一组相互依赖的 Stage 。这也称为依赖图。
  • 运行缓存:项目中已运行的 Stage 的日志。它由 dvc.lock 文件备份组成,被标识为相互对应的依赖项、命令和输出的组合。 dvc reprodvc run 迁移并重新利用运行缓存。有关更多详细信息,请参阅运行缓存
  • Stage :一个 Stage 代表单个数据处理步骤,包括它们的输入和结果输出,可以组合起来构建详细的机器学习流水线。
  • 工作空间:包含 DVC 项目所有文件的目录,例如:原始数据、源代码、ML 模型。在工作空间中每次可以看到一个项目版本。

目录
打赏
0
0
0
0
7
分享
相关文章
Git秘籍大公开:从基础概念到高级技巧的全面解析
在软件开发的征途中,Git如同导航明灯,以其分布式、高效的特性引领着团队前行。本篇博客将带您走进Git的世界,从诞生背景到核心操作流程,一一揭秘。我们将深入讲解工作区、暂存区、仓库区的概念,并详述Git单人本地仓库的操作步骤,包括创建、配置、提交、版本管理等。此外,还将展示Git远程仓库(如Github、Gitee)的协作魅力,通过实例演示项目克隆、多人协作、冲突解决及分支管理等高级技巧。
Git秘籍大公开:从基础概念到高级技巧的全面解析
Argo 数据集下载地址-具体到每天数据(包含数据说明书)
将所用的Argo数据下载地址和一键下载方式分享给大家
Argo 数据集下载地址-具体到每天数据(包含数据说明书)
快速入门DVC(三):数据与模型版本管理
数据和模型版本控制是 DVC 的基础层用于管理大型文件、数据集和机器学习模型。使用常规的 Git 工作流程,但不要在 Git 库中存储大文件。 大数据文件单独存储,来实现高效共享。想象一下,让 Git 以与处理小代码文件相同的性能来处理任意大的文件和目录,该有多酷?例
快速入门DVC(一):简介
简述 DVC的开发者为iterative.ai,成立于2017年。它是一款开源的,针对机器学习项目的版本控制系统,同时也提供企业服务。起初,DVC从数据版本化管理概念切入,之后,提供对机器学习全方位的支持。
DVC 使用案例(一):数据与模型版本管理
数据科学团队常常面临着数据和机器学习模型进行版本化的数据管理问题。我们应该如何一起跟踪数据、源代码和ML模型中的变化?组织和存储这些文件和目录变更的最佳方式是什么?
DVC 使用指南:与相关技术进行比较
DVC 将许多现有的想法结合到一个工具中,目标是将软件工程的最佳实践带入数据科学领域。
快速入门DVC(四):下载数据与模型文件
你可能会有如下的问题: 我们如何在项目之外使用这些制品? 我们如何下载模型来部署它? 我们如何下载特定版本的模型? 我们如何在不同的项目中重用数据集?
DVC 使用指南:大数据集优化
为了跟踪使用 dvc add、dvc repro 等添加的数据文件和目录,DVC 将所有这些文件移动到项目的缓存中。
DVC 使用指南:管理外部数据
⚠️ 这是针对特定情况的高级功能,除非绝对没有其他选择,否则不推荐使用。 在大多数情况下,dvc add 和 dvc import-url 的 to-cache 或 to-remote 策略更方便。
DVC 使用指南:外部依赖
在某些情况下,数据太大,或者其处理的组织方式使其无法在本地机器磁盘中处理,最好避免将其从当前的外部位置移动。 例如,NAS 上的数据、在 HDFS 上处理数据、通过 SSH 运行 Dask,或者用于从 S3 流式传输数据以对其进行处理的脚本。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等