DVC 使用指南:常用术语
简介:
依赖(Dependency):记录在 Stage 的deps部分(在 dvc.yaml 中)或 .dvc 文件中的文件或目录(可能由DVC跟踪)。请参阅 dvc run。当任何依赖项发生变化时,Stage 就会失效(被认为已过时)。
- 依赖(Dependency):记录在 Stage 的
deps
部分(在 dvc.yaml
中)或 .dvc
文件中的文件或目录(可能由DVC跟踪)。请参阅 dvc run
。当任何依赖项发生变化时,Stage 就会失效(被认为已过时)。
- DVC 缓存:DVC 缓存是 DVC 跟踪的文件和目录及其不同版本的隐藏存储(默认在
.dvc/cache
中)。
- DVC 文件:
dvc.yaml
、dvc.lock
或 .dvc
文件。 DVC 命令在工作空间中创建这些以编码流水线和跟踪数据以进行版本控制。请参阅 dvc repro
、dvc add
。
- DVC 项目:通过在工作区(通常是 Git 存储库)中运行
dvc init
进行初始化。它将包含 .dvc/
目录,以及使用 dvc add
或 dvc run
等命令创建 dvc.yaml
和 .dvc
文件。
- 实验:在数据流水线或 ML 模型开发期间尝试达到期望(更好/有趣)的结果。 DVC 旨在帮助管理实验,它具有内置的机制,如:运行缓存 和
dvc exp
命令(在 DVC 2.0 及更高版本上可用)等。
- 外部依赖:一个 Stage 依赖(dvc.yaml 或 Import Stage 时
.dvc
文件中的 deps
字段),其来源来自外部源,例如:HTTP
、SSH
、Amazon S3
、Google Cloud Storage
远程位置,甚至其他 DVC 存储库。请参阅外部依赖。
- 文件链接:一种让文件出现在多个不同文件夹中而不占用存储磁盘上更多物理空间的方法。这种方式既快速又经济。有关文件链接的更多信息,请参阅大型数据集优化和
dvc config cache
。
- Import Stage:使用
dvc import
或 dvc import-url
创建的 .dvc
文件,表示来自外部源的文件或目录。它具有外部依赖(数据源)、隐式下载命令以及作为输出的导入数据本身。
- 输出:由 DVC 跟踪的文件或目录,记录在 Stage (在
dvc.yaml
中)或 .dvc
文件的 outs
部分。输出通常是 Stage 的结果。请参阅 dvc add
, dvc run
, dvc import
等。
- 参数依赖:流水线 Stage (在
dvc.yaml
中定义)可以依赖于任意 YAML、JSON、TOML 或 Python 文件(默认为 params.yaml
)中的特定值。当任何参数值发生变化时,Stage 就无效了(被认为是过时的)。请参阅 dvc params
。
- 流水线(DAG):一组相互依赖的 Stage 。这也称为依赖图。
- 运行缓存:项目中已运行的 Stage 的日志。它由
dvc.lock
文件备份组成,被标识为相互对应的依赖项、命令和输出的组合。 dvc repro
和 dvc run
迁移并重新利用运行缓存。有关更多详细信息,请参阅运行缓存。
- Stage :一个 Stage 代表单个数据处理步骤,包括它们的输入和结果输出,可以组合起来构建详细的机器学习流水线。
- 工作空间:包含 DVC 项目所有文件的目录,例如:原始数据、源代码、ML 模型。在工作空间中每次可以看到一个项目版本。