阿里云DSW实例wandb使用示例

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: wandb是一个免费的,用于记录实验数据的工具。wandb相比于tensorboard之类的工具,有更加丰富的用户管理,团队管理功能,更加方便团队协作。本文主要演示如何在阿里云DSW实例中使用wandb。

创建wandb个人账户

  • 地址:wandbai
  • user setting中获取API Key

图片.png

图片.png

DSW操作

创建并激活环境
conda create -n wan python=3.7
conda activate wan

图片.png

安装必要的包
  • requirements.txt
appdirs==1.4.4
charset-normalizer==3.1.0
click==8.1.3
docker-pycreds==0.4.0
gitdb==4.0.10
GitPython==3.1.31
idna==3.4
importlib-metadata==6.7.0
numpy==1.21.6
nvidia-cublas-cu11==11.10.3.66
nvidia-cuda-nvrtc-cu11==11.7.99
nvidia-cuda-runtime-cu11==11.7.99
nvidia-cudnn-cu11==8.5.0.96
pathtools==0.1.2
Pillow==9.5.0
protobuf==4.23.3
psutil==5.9.5
PyYAML==6.0
requests==2.31.0
sentry-sdk==1.25.1
setproctitle==1.3.2
six==1.16.0
smmap==5.0.0
torch==1.13.1
torchvision==0.14.1
typing_extensions==4.6.3
urllib3==2.0.3
wandb==0.15.4
zipp==3.15.0
pip install -r requirements.txt
python文件
import argparse
import random 
import numpy
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
import logging
logging.propagate = False 
logging.getLogger().setLevel(logging.ERROR)

import wandb

# 配置自己的key
wandb.login(key="831ea3*******")

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()

        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
        self.conv2 = nn.Conv2d(10, 20, kernel_size=5)

        self.conv2_drop = nn.Dropout2d()

        self.fc1 = nn.Linear(320, 50)
        self.fc2 = nn.Linear(50, 10)

    def forward(self, x):
        x = F.relu(F.max_pool2d(self.conv1(x), 2))
        x = F.relu(F.max_pool2d(self.conv2_drop(self.conv2(x)), 2))

        x = x.view(-1, 320)

        x = F.relu(self.fc1(x))
        x = F.dropout(x, training=self.training)
        x = self.fc2(x)

        return F.log_softmax(x, dim=1)

def train(args, model, device, train_loader, optimizer, epoch):
    model.train()

    for batch_idx, (data, target) in enumerate(train_loader):
        if batch_idx > 20:
          break

        data, target = data.to(device), target.to(device)

        optimizer.zero_grad()

        output = model(data)

        loss = F.nll_loss(output, target)

        loss.backward()

        optimizer.step()

def test(args, model, device, test_loader):
    model.eval()
    test_loss = 0
    correct = 0
    best_loss = 1

    example_images = []
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)

            output = model(data)

            test_loss += F.nll_loss(output, target, reduction='sum').item()

            pred = output.max(1, keepdim=True)[1]
            correct += pred.eq(target.view_as(pred)).sum().item()

            example_images.append(wandb.Image(
                data[0], caption="Pred: {} Truth: {}".format(pred[0].item(), target[0])))
    #通过wandb来记录模型在测试集上的Accuracy和Loss
    wandb.log({
   
   
        "Examples": example_images,
        "Test Accuracy": 100. * correct / len(test_loader.dataset),
        "Test Loss": test_loss})

# 定义项目在wandb上保存的名称
wandb.init(project="wandb-test")
wandb.watch_called = False

# 在wandb上保存超参数
config = wandb.config          
config.batch_size = 4         
config.test_batch_size = 10   
config.epochs = 50            
config.lr = 0.1              
config.momentum = 0.1          
config.no_cuda = False         
config.seed = 42               
config.log_interval = 10 

def main():
    use_cuda = not config.no_cuda and torch.cuda.is_available()
    device = torch.device("cuda" if use_cuda else "cpu")
    kwargs = {
   
   'num_workers': 1, 'pin_memory': True} if use_cuda else {
   
   }


    random.seed(config.seed)      
    torch.manual_seed(config.seed)
    numpy.random.seed(config.seed) 
    torch.backends.cudnn.deterministic = True

    train_loader = torch.utils.data.DataLoader(
        datasets.MNIST('../data', train=True, download=True,
                       transform=transforms.Compose([
                           transforms.ToTensor(),
                           transforms.Normalize((0.1307,), (0.3081,))
                       ])),
        batch_size=config.batch_size, shuffle=True, **kwargs)
    test_loader = torch.utils.data.DataLoader(
        datasets.MNIST('../data', train=False, transform=transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize((0.1307,), (0.3081,))
        ])),
        batch_size=config.test_batch_size, shuffle=True, **kwargs)

    model = Net().to(device)
    optimizer = optim.SGD(model.parameters(), lr=config.lr,
                          momentum=config.momentum)

    #记录模型层的维度,梯度,参数信息
    wandb.watch(model, log="all")

    for epoch in range(1, config.epochs + 1):
        train(config, model, device, train_loader, optimizer, epoch)
        test(config, model, device, test_loader)

    #保存模型
    torch.save(model.state_dict(), "model.h5")
    #在wandb上保存模型
    wandb.save('model.h5')

if __name__ == '__main__':
    main()

wandb ui查看

图片.png

图片.png

参考链接

wandb不可缺少的机器学习分析工具

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
4天前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
|
21天前
|
存储 机器学习/深度学习 人工智能
阿里云服务器计算型c8i与通用型g8i实例规格性能及收费标准与活动价格参考
阿里云服务器计算型c8i与通用型g8i实例是阿里云的第八代云服务器实例规格,是除了计算型c7与c8y和通用型g7与g8y之外同样深受用户喜欢的云服务器实例规格。本文将详细介绍阿里云的计算型c8i和通用型g8i两款云服务器实例,包括它们的技术特性、适用场景、性能优势、最新活动价格情况,以供参考。
阿里云服务器计算型c8i与通用型g8i实例规格性能及收费标准与活动价格参考
|
6天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云第八代云服务器ECSg8i实例深度解析:性能及适用场景参考
目前企业对云服务器的性能、安全性和AI能力的要求日益提高。阿里云推出的第八代云服务器ECS g8i实例,以其卓越的性能、增强的AI能力和全面的安全防护,除了适用于通用互联网应用和在线音视频应用等场景之外,也广泛应用于AI相关应用。本文将深入解析ECS g8i实例的技术特性、产品优势、适用场景及与同类产品的对比,以供参考。
阿里云第八代云服务器ECSg8i实例深度解析:性能及适用场景参考
|
11天前
|
存储 缓存 数据挖掘
阿里云服务器通用算力型u1与经济型e实例对比与常见问题参考
阿里云的通用算力型u1与经济型e实例均以实惠的价格提供云服务,但各有侧重。经济型e实例采用共享模式,适用于个人开发者、学生及小微企业,适合搭建网站、开发测试等轻量级应用;通用算力型u1实例则提供独享资源,更适合对稳定性和性能有一定要求的企业级应用,如中大型网站、数据分析等场景。e实例基于Intel® Xeon® Platinum处理器,提供ESSD Entry云盘,价格亲民;u1实例同样支持ESSD系列云盘,具备更高性价比和稳定算力保障。选择时,个人用户可优先考虑经济型e实例,追求性价比;企业用户则推荐使用通用算力型u1实例,以获得更佳的性能和服务质量保证。
阿里云服务器通用算力型u1与经济型e实例对比与常见问题参考
|
14天前
|
机器学习/深度学习 编解码 缓存
阿里云服务器计算型c5/c6/c7/c8y和通用型g5/g6/g7/g8y四代实例对比与选择参考
阿里云服务器的所有实例规格中,计算型和通用型是用户选择最多的,计算型实例主要适用于网站应用、批量计算、视频编码等各种类型和规模的企业级应用。通用型实例则主要适用于中小型数据库系统、缓存、搜索集群等各种类型的企业级应用等场景。阿里云服务器的计算型和通用型实例也经过了多代升级,阿里云不断推出新一代的云服务器产品以满足不同用户的需求。本文将详细对比阿里云计算型c5、c6、c7、c8y以及通用型g5、g6、g7、g8y四代云服务器实例,帮助用户更好地了解这些产品的特性和适用场景,以供选择和参考。
阿里云服务器计算型c5/c6/c7/c8y和通用型g5/g6/g7/g8y四代实例对比与选择参考
|
2天前
|
弹性计算 缓存 前端开发
阿里云服务器ECS u1、c7、e实例、c8i实例有什么区别?性能有差异吗?
阿里云ECS提供多样化的实例规格,满足不同需求。经济型e实例为共享资源,适合轻负载应用;通用算力型u1与计算型c7/c8i为独享资源,后者性能更优。c7与c8i均具1:2的CPU内存比,但c8i作为第八代服务器,性能超越c7。价格方面,2核4G的u1实例企业用户专享价199元/年,性价比突出。选择时,轻负载可选e实例,中等负载选u1,高性能需求则推荐c7或c8i实例。更多详情参见阿里云官方页面。
|
2天前
|
弹性计算 缓存 安全
阿里云服务器ECS实例2核4G有哪些?性能如何?
阿里云2核4G配置的云服务器提供多样化的ECS实例规格,如突发性能t6、经济型e、计算型c7/c6/c8i/c8a等,不同规格性能各异,参考价格从68元/月至203元/月不等。其中,经济型e和通用算力型u1实例为主推产品。2核4G配置理论上支持约20人同时在线访问,实际并发数受应用架构、带宽、用户行为等多种因素影响。详情参见阿里云官方页面。
|
7天前
|
云安全 弹性计算 安全
阿里云服务器基础安全防护简介,云服务器基础安全防护及常见安全产品简介
在使用云服务器的过程中,云服务器的安全问题是很多用户非常关心的问题,阿里云服务器不仅提供了一些基础防护,我们也可以选择其他的云安全类产品来确保我们云服务器的安全。本文为大家介绍一下阿里云服务器的基础安全防护有哪些,以及阿里云的一些安全防护类云产品。
阿里云服务器基础安全防护简介,云服务器基础安全防护及常见安全产品简介
|
19天前
|
弹性计算 运维 搜索推荐
阿里云建站方案参考:云服务器、速成美站、企业官网区别及选择参考
随着数字化转型的浪潮不断推进,越来越多的企业和公司开始将业务迁移到云端,而搭建一个专业、高效的企业官网成为了上云的第一步。企业官网不仅是展示公司形象、产品和服务的重要窗口,更是与客户沟通、传递价值的关键渠道。随着阿里云服务器和建站产品的知名度越来越高,越来越多的用户选择阿里云的产品来搭建自己的官网。本文将深入探讨在阿里云平台上,如何选择最适合自己的建站方案:云服务器建站、云·速成美站还是云·企业官网。
105 13
阿里云建站方案参考:云服务器、速成美站、企业官网区别及选择参考
|
13天前
|
编解码 分布式计算 Linux
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
阿里云服务器产品包含云服务器、轻量应用服务器、GPU云服务器等,本文汇总了这些云服务器当下最新的实时活动价格情况,包含经济型e实例云服务器价格、通用算力型u1实例云服务器价格、第七代云服务器价格、轻量应用服务器最新价格、GPU云服务器价格,以供大家参考。
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考

热门文章

最新文章