快速入门DVC(二):安装及ML项目初始化

简介: 安装使用pip安装我们强烈建议您创建一个虚拟环境,或者使用pipx(在 Python 3.7+ 上)来封装您的本地环境。

安装

使用pip安装

我们强烈建议您创建一个虚拟环境,或者使用pipx(在 Python 3.7+ 上)来封装您的本地环境。

pip install dvc
复制代码


您可以根据您使用的远程存储类型,选择性的安装可选依赖项:[s3][azure][gdrive][gs][oss][ssh]。 使用 [all] 将它们所有包含在内一起安装。

例如,支持 Amazon S3 存储:

pip install "dvc[s3]"
复制代码


在这种情况下,它会同时安装 DVCboto3 库。

使用conda安装

安装 DVC 之前,需要提前安装  MinicondaAnaconda 发行版。

conda install -c conda-forge mamba # installs much faster than conda
mamba install -c conda-forge dvc
复制代码


您可以根据您使用的远程存储类型,选择性的安装可选依赖项:dvc-s3, dvc-azure, dvc-gdrive, dvc-gs, dvc-oss, dvc-ssh

例如,支持 Amazon S3 存储:

conda install -c conda-forge mamba
mamba install -c conda-forge dvc-s3
复制代码


在这种情况下,它会同时安装 DVCboto3 库。

使用berw安装(MacOS)

安装 DVC 之前,需要确保已经安装了 Homebrew

brew install dvc
复制代码


使用apt安装(Debian/Ubuntu)

sudo wget \
       https://dvc.org/deb/dvc.list \
       -O /etc/apt/sources.list.d/dvc.list
wget -qO - https://dvc.org/deb/iterative.asc | sudo apt-key add -
sudo apt update
sudo apt install dvc
复制代码


使用yum安装(Fedora/CentOS)

sudo wget \
       https://dvc.org/rpm/dvc.repo \
       -O /etc/yum.repos.d/dvc.repo
sudo rpm --import https://dvc.org/rpm/iterative.asc
sudo yum update
sudo yum install dvc
复制代码


使用snap安装(Linux)

安装 DVC 之前,需要确保已经安装了snapd

snap install --classic dvc
复制代码


查看帮助文档

$ dvc -h  
复制代码


注意:

  1. 如果要将 DVC 用作 Python 库,请使用 pipconda 安装。
  2. 当使用 Homebrewdebrpm 存储库 、 snap 安装 DVC 时,会自动启用 Shell 补全。

项目初始化

安装完DVC之后, 通过在 Git 项目中运行 dvc init 来初始化它。

准备工作:

$ mkdir example-get-started
$ cd example-get-started
$ git init
复制代码


初始化DVC:

$ dvc init
复制代码


初始化DVC之后,创建了一些应该添加到 Git 仓库的内部文件。

$ git status
Changes to be committed:
        new file:   .dvc/.gitignore
        new file:   .dvc/config
        ...
$ git commit -m "Initialize DVC"
复制代码


ok,现在你已经准备好DVC了。 DVC的特性可以分为几个功能组件(数据和模型版本控制访问与下载数据和模型数据流水线指标跟踪、更新训练参数以及可视化模型表现机器学习实验管理),后面我将在博文中一一探讨。


相关文章
|
存储 Prometheus 监控
听GPT 讲Prometheus源代码--promtool
听GPT 讲Prometheus源代码--promtool
111 1
|
机器学习/深度学习 算法 数据挖掘
TensorFlow ML cookbook 第一章7、8节 实现激活功能和使用数据源
TensorFlow ML cookbook 第一章7、8节 实现激活功能和使用数据源
84 0
TensorFlow ML cookbook 第一章7、8节 实现激活功能和使用数据源
|
存储 机器学习/深度学习 缓存
快速入门DVC(三):数据与模型版本管理
数据和模型版本控制是 DVC 的基础层用于管理大型文件、数据集和机器学习模型。使用常规的 Git 工作流程,但不要在 Git 库中存储大文件。 大数据文件单独存储,来实现高效共享。想象一下,让 Git 以与处理小代码文件相同的性能来处理任意大的文件和目录,该有多酷?例
|
机器学习/深度学习 存储 SQL
快速入门DVC(一):简介
简述 DVC的开发者为iterative.ai,成立于2017年。它是一款开源的,针对机器学习项目的版本控制系统,同时也提供企业服务。起初,DVC从数据版本化管理概念切入,之后,提供对机器学习全方位的支持。
|
存储 机器学习/深度学习 缓存
DVC 使用案例(一):数据与模型版本管理
数据科学团队常常面临着数据和机器学习模型进行版本化的数据管理问题。我们应该如何一起跟踪数据、源代码和ML模型中的变化?组织和存储这些文件和目录变更的最佳方式是什么?
|
存储 机器学习/深度学习 API
快速入门DVC(四):下载数据与模型文件
你可能会有如下的问题: 我们如何在项目之外使用这些制品? 我们如何下载模型来部署它? 我们如何下载特定版本的模型? 我们如何在不同的项目中重用数据集?
|
存储 机器学习/深度学习 数据可视化
DVC 使用指南:与相关技术进行比较
DVC 将许多现有的想法结合到一个工具中,目标是将软件工程的最佳实践带入数据科学领域。
|
存储 机器学习/深度学习 缓存
DVC 使用指南:常用术语
依赖(Dependency):记录在 Stage 的deps部分(在 dvc.yaml 中)或 .dvc 文件中的文件或目录(可能由DVC跟踪)。请参阅 dvc run。当任何依赖项发生变化时,Stage 就会失效(被认为已过时)。
|
存储 Linux 网络安全
DVC 使用指南:外部依赖
在某些情况下,数据太大,或者其处理的组织方式使其无法在本地机器磁盘中处理,最好避免将其从当前的外部位置移动。 例如,NAS 上的数据、在 HDFS 上处理数据、通过 SSH 运行 Dask,或者用于从 S3 流式传输数据以对其进行处理的脚本。
|
存储 机器学习/深度学习 缓存
DVC 使用指南:项目结构
在您的工作空间中使用 dvc init 将开始一个 DVC 项目,包括内部的 .dvc/ 目录。 从那里开始,您将创建和管理不同的 DVC 文件,并在使用 DVC 并进行数据科学实验时占据缓存。
下一篇
无影云桌面