PyTorch应用实战五:实现二值化神经网络

简介: PyTorch应用实战五:实现二值化神经网络

实验环境

python3.6 + pytorch1.8.0

import torch
print(torch.__version__)
1.8.0

二值化网络概述

二值化网络(BinaryNet)是一种深度学习网络类型,使用二进制(1和0)代替浮点数作为网络的输入和参数。这种网络类型由加拿大的Yaroslav Bulatov和Artem Babenko在2016年提出。二值化网络的独特之处在于它通过使用二进制数值(1或-1)来代替常规的浮点数,极大地减少了神经网络中的存储空间和计算量。这大大提高了神经网络的处理速度和效率,并使其在较小的处理器和设备上的应用更加可行。


在传统的神经网络中,每个神经元的输出值在0到1之间取值。网络的权重也是浮点数,可以在训练时根据错误来进行微调。但是,在二值化网络中,这些值被替换为-1和1。这种二进制表示法允许网络使用异或逻辑门和位移操作来代替复杂的乘法和加法运算,从而加快了计算速度。此外,网络的存储要求也减少了,因为每个神经元和权重只需要1个比特来表示。


虽然在计算速度和存储方面二值化网络有一定的优势,但在某些情况下,它会降低网络的准确性。二值化网络的主要问题在于,它不适合处理复杂的特征和数据集。因此,它通常用于解决图像分类、人脸识别和目标检测等简单任务。


在研究过程中,学者们提出了许多改进二值化网络的方法。例如,包括XNOR-Net、BinaryConnect、Hinton Binarized Neural Networks和Real-to-Binary Conversion等。这些方法可以使网络在保持二值化的优点的同时提高其准确性和适用性。


在实际应用中,二值化网络通常是一种加速深度学习推理的技术。例如,在移动设备上处理图像或运行深度学习模型时,二值化网络可以在不损失准确性的情况下体现出更高的速度和效率。

实验内容

import torch
import torch.nn as nn
import math
from torch.autograd import Function
import torch.nn.functional as F
from torchvision import datasets, transforms
class Binarize(Function):
    @staticmethod
    def forward(ctx, input):
        ctx.save_for_backward(input)
        return torch.sign(input + 1e-20)
    @staticmethod
    def backward(ctx, grad_output):
        input = ctx.saved_tensors[0]
        grad_output[input > 1] = 0
        grad_output[input < -1] = 0
        return grad_output

该代码实现了一个二值化函数,将输入张量中的每个元素变成-1或1,如果元素大于等于0则变成1,否则变成-1。该函数通过继承PyTorch的Function类来实现自定义反向传播。具体来说,该类实现了两个静态方法forward和backward,作用分别是前向传播和反向传播。


在前向传播中,函数使用torch.sign(input + 1e-20)将输入张量二值化,并将结果返回。需要注意的是,在计算sign时,为了避免输入为0的情况,添加了1e-20的偏移量。


在反向传播中,函数首先从上下文中获取之前保存的输入张量input。然后对于所有大于1或小于-1的元素,在梯度grad_output中将其对应位置上的梯度设为0,表示这些位置上的输入不应该对梯度做出贡献。最后返回更新后的梯度grad_output。


总的来说,该函数简单易懂,用途广泛,可以用于二值化卷积神经网络中的权重或激活值。


ctx.save_for_backward(input)是将输入保存在上下文ctx对象中,以供后续的反向传播使用。在PyTorch中,要实现自定义的反向传播需要重载torch.autograd.Function中的forward和backward方法,使用ctx.save_for_backward(input)可以将forward方法中的输入input保存下来,在backward方法中可以使用ctx.saved_tensors获取到这些保存的张量数据,进而计算梯度。


@staticmethod 是 Python 中的一个装饰器(decorator),它用于定义一个静态方法。静态方法是与类相关联的方法,但是不需要访问类或实例的状态,也就是说,它们在执行时不依赖于实例的状态,因此可以在不创建实例的情况下直接调用。通过在方法定义上添加@staticmethod装饰器,可以将一个普通函数声明为静态方法。

class BinarizedLinear(nn.Module):
    def __init__(self, in_features, out_features, binarize_input=True):
        super(BinarizedLinear, self).__init__()
        self.binarize_input = binarize_input
        self.weight = nn.Parameter(torch.Tensor(out_features, in_features))
        nn.init.kaiming_uniform_(self.weight, a=math.sqrt(5))
    def forward(self, x):
        if self.binarize_input:
            x = Binarize.apply(x)    #调用静态方法
        w = Binarize.apply(self.weight)
        out = torch.matmul(x, w.t())
        return out

这段代码是实现了一个二值化的全连接层 BinarizedLinear,继承自 PyTorch 的 nn.Module。主要包含以下几个部分:


1.构造函数:接收两个参数,输入特征数和输出特征数,并初始化权重参数 self.weight。其中,参数 binarize_input 表示是否对输入数据进行二值化处理。

2.forward 函数:接收输入数据 x,如果 binarize_input 为 True,则对输入数据进行二值化处理,然后对权重参数也进行二值化处理,并使用矩阵乘法计算输出值 out。

3.Binarize 类:定义了一个自定义的二值化操作 Binarize.apply,是一个继承自 PyTorch 的 autograd.Function,可以实现自动求导。其作用是将输入数据 x 的取值二值化为 -1 或 1,根据具体取值的正负号。

通过在网络中使用 BinarizedLinear 层,可以减少模型的计算量,提高模型的计算速度和效率,但可能会降低模型的准确率。

model = nn.Sequential(
    BinarizedLinear(784, 2048, False),
    nn.BatchNorm1d(2048),
    BinarizedLinear(2048, 2048),
    nn.BatchNorm1d(2048),
    BinarizedLinear(2048, 2048),
    nn.Dropout(0.5),
    nn.BatchNorm1d(2048),
    nn.Linear(2048, 10)
)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=40, gamma=0.1)

这是一个使用BinarizedLinear层构建的神经网络模型,该层用于二值化输入和权重。该模型共有6个层,分别是3个BinarizedLinear层、2个BatchNorm1d层和1个普通的线性层。其中,第一个BinarizedLinear层的输入大小为784,输出大小为2048;第二个和第三个BinarizedLinear层的输入和输出大小都是2048。最后一个普通线性层用于将2048个输出映射到10个输出,对应10个分类。在第三个BinarizedLinear层和第四个BatchNorm1d层之间添加了一个50%的dropout层,以减少过拟合。


优化器使用Adam优化器,学习率为0.01,使用StepLR调度器每过40个epoch将学习率调整为原来的0.1倍,以加速收敛。

train_batch_size = 100  #一共60000个数据,100个数据一组,一共600组(N=100)
test_batch_size = 100   #一共10000个数据,100个数据一组,一共100组(N=100)
# 训练集
train_loader = torch.utils.data.DataLoader(
    datasets.MNIST(
        './data',train=True,download=True,  
        transform=transforms.Compose([
            transforms.ToTensor(),  #转为tensor
            transforms.Normalize(0.5,0.5) #正则化
        ])
    ),
    batch_size = train_batch_size, shuffle=True  #打乱位置
)
# 测试集
test_loader = torch.utils.data.DataLoader(
    datasets.MNIST(
        './data',train=False,download=True,
        transform=transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize(0.5,0.5)
        ])
    ),
    batch_size = test_batch_size, shuffle=False
)

这段代码实现了通过PyTorch的DataLoader加载MNIST数据集。MNIST是一个手写数字数据集,包含60,000张28x28的训练图像和10,000张测试图像,每张图像代表一个从0到9中的数字。


首先定义了两个超参数train_batch_size和test_batch_size,这是训练集和测试集每组数据的大小。在这里分别为100,也就是每次加载100张图片进行训练或测试。


然后定义了训练集和测试集的DataLoader,使用MNIST类加载数据集,参数中train=True表示加载训练集,train=False表示加载测试集。同时也指定了加载的路径和应用的预处理操作,包括将图像转换为张量和进行正则化处理。


最后,指定了batch_size和shuffle参数,表示每次加载的图像数量和是否打乱图像的顺序。在训练过程中,通常会在每个epoch结束时打乱图像的顺序,以保证模型可以学习到更多的变化和模式。在测试过程中,没有必要打乱图像的顺序,因为我们只需要评估模型的性能。

epochs = 100
interval = 100
for epoch in range(epochs):
    for i, (data, label) in enumerate(train_loader):
        model.train()
        optimizer.zero_grad()
        output = model(data.view(-1, 28*28))
        loss = F.cross_entropy(output, label)  #交叉熵函数
        loss.backward()   #反向求导
        optimizer.step()
        if i % interval == 0:
            print("Epoch %03d [%03d/%03d]\tLoss:%.4f"%(epoch, i, len(train_loader), loss.item()))
    correct_num = 0
    total_num = 0
    with torch.no_grad():
        for data, label in test_loader:
            model.eval()
            output = model(data.view(-1, 28*28))
            pred = output.max(1)[1]
            correct_num += (pred == label).sum().item()
            total_num += len(data)
    acc = correct_num / total_num
    print('...Testing @ Epoch %03d\tAcc:%.4f'%(epoch, acc))
    scheduler.step()
Epoch 000 [000/600] Loss:2.4242
Epoch 000 [100/600] Loss:0.7715
Epoch 000 [200/600] Loss:0.6427
Epoch 000 [300/600] Loss:0.6404
Epoch 000 [400/600] Loss:0.5750
Epoch 000 [500/600] Loss:0.1281
...Testing @ Epoch 000  Acc:0.9402
Epoch 001 [000/600] Loss:0.1153
Epoch 001 [100/600] Loss:0.3760
Epoch 001 [200/600] Loss:0.2282
Epoch 001 [300/600] Loss:0.3495
Epoch 001 [400/600] Loss:0.0987
Epoch 001 [500/600] Loss:0.2286
...Testing @ Epoch 001  Acc:0.9598
Epoch 002 [000/600] Loss:0.1307
Epoch 002 [100/600] Loss:0.0409
Epoch 002 [200/600] Loss:0.2278
Epoch 002 [300/600] Loss:0.1454
Epoch 002 [400/600] Loss:0.0510
Epoch 002 [500/600] Loss:0.1283
...Testing @ Epoch 002  Acc:0.9661
Epoch 003 [000/600] Loss:0.0372
Epoch 003 [100/600] Loss:0.0778
Epoch 003 [200/600] Loss:0.0903
Epoch 003 [300/600] Loss:0.0772
Epoch 003 [400/600] Loss:0.0523
Epoch 003 [500/600] Loss:0.1434
...Testing @ Epoch 003  Acc:0.9603
Epoch 004 [000/600] Loss:0.0792
Epoch 004 [100/600] Loss:0.2278
Epoch 004 [200/600] Loss:0.0707
Epoch 004 [300/600] Loss:0.1063
Epoch 004 [400/600] Loss:0.1302
Epoch 004 [500/600] Loss:0.1531
...Testing @ Epoch 004  Acc:0.9700
Epoch 005 [000/600] Loss:0.1077
Epoch 005 [100/600] Loss:0.0279
Epoch 005 [200/600] Loss:0.1569
Epoch 005 [300/600] Loss:0.0495
Epoch 005 [400/600] Loss:0.0547
Epoch 005 [500/600] Loss:0.1252
...Testing @ Epoch 005  Acc:0.9677
Epoch 006 [000/600] Loss:0.0139
Epoch 006 [100/600] Loss:0.0064
Epoch 006 [200/600] Loss:0.0180
Epoch 006 [300/600] Loss:0.0480
Epoch 006 [400/600] Loss:0.0868
Epoch 006 [500/600] Loss:0.0651
...Testing @ Epoch 006  Acc:0.9648
Epoch 007 [000/600] Loss:0.0300
Epoch 007 [100/600] Loss:0.0104
Epoch 007 [200/600] Loss:0.0738
Epoch 007 [300/600] Loss:0.0654
Epoch 007 [400/600] Loss:0.1252
Epoch 007 [500/600] Loss:0.1658
...Testing @ Epoch 007  Acc:0.9625
Epoch 008 [000/600] Loss:0.1689
Epoch 008 [100/600] Loss:0.0250

这段代码是一个简单的神经网络模型的训练和测试过程。


首先定义了两个变量epochs和interval,分别表示训练过程中的总轮数和每训练interval个batch就输出一次训练结果。


然后使用了一个双重循环,外层循环遍历epochs轮,内层循环遍历训练数据集中的所有batch。在每个batch中,首先将模型设为训练模式,然后将优化器的梯度清零,接着将模型输入当前batch的数据并得到输出,计算损失值并进行反向传播求导,最后使用优化器更新模型参数。


当训练完interval个batch时,输出当前轮的训练结果,其中包括当前轮数、当前batch数、总batch数和当前batch的损失值。


接着,在训练完成一轮后,使用测试数据集对模型进行测试。首先将模型设置为评估模式,然后遍历测试数据集中的所有数据,将模型输入测试数据并得到输出,计算预测结果并与真实标签进行比较,统计正确预测的数量和总数量,最后计算测试集的准确率。


最后,使用scheduler.step()函数更新学习率。scheduler是调整学习率的一个函数,根据不同的策略进行学习率的调整,例如每隔一定轮数降低学习率等。这里使用的是StepLR函数,每隔一定轮数降低学习率。

目录
相关文章
|
22天前
|
机器学习/深度学习 数据采集 人工智能
PyTorch学习实战:AI从数学基础到模型优化全流程精解
本文系统讲解人工智能、机器学习与深度学习的层级关系,涵盖PyTorch环境配置、张量操作、数据预处理、神经网络基础及模型训练全流程,结合数学原理与代码实践,深入浅出地介绍激活函数、反向传播等核心概念,助力快速入门深度学习。
74 1
|
2月前
|
监控 安全 Shell
管道符在渗透测试与网络安全中的全面应用指南
管道符是渗透测试与网络安全中的关键工具,既可用于高效系统管理,也可能被攻击者利用实施命令注入、权限提升、数据外泄等攻击。本文全面解析管道符的基础原理、实战应用与防御策略,涵盖Windows与Linux系统差异、攻击技术示例及检测手段,帮助安全人员掌握其利用方式与防护措施,提升系统安全性。
120 6
|
4月前
|
运维 Kubernetes 前端开发
如何用 eBPF 实现 Kubernetes 网络可观测性?实战指南
本文深入探讨了Kubernetes网络观测的挑战与eBPF技术的应用。首先分析了传统工具在数据碎片化、上下文缺失和性能瓶颈上的局限性,接着阐述了eBPF通过零拷贝观测、全链路关联和动态过滤等特性带来的优势。文章进一步解析了eBPF观测架构的设计与实现,包括关键数据结构、内核探针部署及生产环境拓扑。实战部分展示了如何构建全栈观测系统,并结合NetworkPolicy验证、跨节点流量分析等高级场景,提供具体代码示例。最后,通过典型案例分析和性能数据对比,验证了eBPF方案的有效性,并展望了未来演进方向,如智能诊断系统与Wasm集成。
133 1
|
19天前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
243 11
|
2月前
|
PyTorch 算法框架/工具 异构计算
PyTorch 2.0性能优化实战:4种常见代码错误严重拖慢模型
我们将深入探讨图中断(graph breaks)和多图问题对性能的负面影响,并分析PyTorch模型开发中应当避免的常见错误模式。
149 9
|
1月前
|
机器学习/深度学习 算法 PyTorch
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
|
1月前
|
机器学习/深度学习 算法 PyTorch
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
|
2月前
|
数据采集 存储 数据可视化
Python网络爬虫在环境保护中的应用:污染源监测数据抓取与分析
在环保领域,数据是决策基础,但分散在多个平台,获取困难。Python网络爬虫技术灵活高效,可自动化抓取空气质量、水质、污染源等数据,实现多平台整合、实时更新、结构化存储与异常预警。本文详解爬虫实战应用,涵盖技术选型、代码实现、反爬策略与数据分析,助力环保数据高效利用。
126 0
|
3月前
|
机器学习/深度学习 人工智能 PyTorch
零基础入门CNN:聚AI卷积神经网络核心原理与工业级实战指南
卷积神经网络(CNN)通过局部感知和权值共享两大特性,成为计算机视觉的核心技术。本文详解CNN的卷积操作、架构设计、超参数调优及感受野计算,结合代码示例展示其在图像分类、目标检测等领域的应用价值。
185 7
|
2月前
|
安全 Linux
利用Libevent在CentOS 7上打造异步网络应用
总结以上步骤,您可以在CentOS 7系统上,使用Libevent有效地构建和运行异步网络应用。通过采取正确的架构和代码设计策略,能保证网络应用的高效性和稳定性。
75 0

推荐镜像

更多