【Pytorch神经网络理论篇】 34 样本均衡+分类模型常见损失函数

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: Sampler类中有一个派生的权重采样类WeightedRandomSampler,能够在加载数据时,按照指定的概率进行随机顺序采样。

同学你好!本文章于2021年末编写,获得广泛的好评!


故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现,


Pytorch深度学习·理论篇(2023版)目录地址为:


CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录


本专栏将通过系统的深度学习实例,从可解释性的角度对深度学习的原理进行讲解与分析,通过将深度学习知识与Pytorch的高效结合,帮助各位新入门的读者理解深度学习各个模板之间的关系,这些均是在Pytorch上实现的,可以有效的结合当前各位研究生的研究方向,设计人工智能的各个领域,是经过一年时间打磨的精品专栏!

https://v9999.blog.csdn.net/article/details/127587345


欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~

815902569f6a467a99304f9ac1482386.png



1 样本均衡


当训练样本不均衡时,可以采用过采样、欠采样、数据增强等手段来避免过拟合。


1.1 使用权重采样类


Sampler类中有一个派生的权重采样类WeightedRandomSampler,能够在加载数据时,按照指定的概率进行随机顺序采样。


WeightedRandomSampler(samples_weight, samples_num)


1、weights:对应的是“样本”的权重而不是“类别的权重”。 也就是说:有一千个样本,weight的数值就有一千个,因此有 len(weight)= 样本数。


2、num_sampes:提取的样本数目,待选取的样本数目一般小于全部的样本数


3、replacement:用于指定是否可以重复选取某一个样本,默认为True,即允许在个epoch中重复选取某一个样本。如果设为False,则当某一类的样本被全部选完,但其样本数自仍未达到num_samples时,sampler将不会再从该类中选取本,此时可能导致weights参数失效。


1.2 WeightedRandomSampler图文解释


如下图,weight是一些tensor,代表每个位置的样本对应的权重,WeightedRandomSampler(weights, 6, True) ,表示按照weight给出的权重,生成六个索引,而且是重复取样。


a6c4e04c2bfe492da6d4a7cdd7ca1ddc.png


从输出可以看出,位置 [1] = 10 由于权重较大,被采样的次数较多,位置[0]由于权重为0所以没有被采样到,其余位置权重低所以都仅仅被采样一次。


1.2.1 获得某个数据集的权重手动计算方法


weight = [ ] 里面每一项代表该样本种类占总样本的倒数。


例如: 数据集 animal = [ cat, cat, dog, dog, dog],cat有两个,dog有三个。


解:


       第一步:先计算每种动物的占比,


cat_count = 2/5 = 0.4
dog_count = 3/5 = 0.6

   

       第二步:再计算count的倒数,也就是占比的倒数,这个数值就是weight

           

cat_weight = 1/count = 1/0.4 = 2.5
dog_weight = 1/count = 1/0.6 = 1.67


       第三步:生成权重


               weight 列表就可以写作:weight = [2.5, 2.5, 1.67, 1.67, 1.67]


1.3 WeightedRandomSampler代码实战


1.3.1 把1000条数据,概率相等的采样,采200条数据:


from torch.utils.data import WeightedRandomSampler
weights=[1]*1000
bbb=list(WeightedRandomSampler(weights, 200, replacement=True))
print(bbb)


1.3.2 dataset类上的实现


weights =aaa=[1]*20000
sampler=WeightedRandomSampler(weights,num_samples=200,replacement=True)
_image_size = 32
_mean = [0.485, 0.456, 0.406]
_std = [0.229, 0.224, 0.225]
trans = transforms.Compose([
    transforms.RandomCrop(_image_size),
    # transforms.RandomHorizontalFlip(),
    # transforms.ColorJitter(.3, .3, .3),
    transforms.ToTensor(),
    # transforms.Normalize(_mean, _std),
])
if __name__ == '__main__':
    train_ds = DogsCatsDataset(r"D:\data\ocr\wanqu\archive", "train", transform=trans)
    train_dl = DataLoader(train_ds, batch_size=2,num_workers=1,sampler=sampler)
    # train_dl = DataLoader(train_ds, batch_size=20,num_workers=1,shuffle=True)
    for i, (data, target) in enumerate(train_dl):
        # print(i,target)
        if len(np.where(target.numpy() == 1)[0])>0:
            print('find 1')


1.3.3  Tip


在Dataloader类中,使用了采样器Sampler类就不能使用shume参数。


1.4 权重采样的影响


通过采样的方式进行样本均衡,只是一种辅助手段,它也会引入一些新的问题。在条件允许的情况下,还是推荐将所收集的样本尽量趋于均衡。


1.4.1 过采样


重复正比例数据,实际上没有为模型引入更多数据,过分强调正比例数据,会放大正比例噪声对模型的影响。


1.4.2 欠采样


丢弃大量数据,和过采样一样会存在过拟合的问题。


1.5 通过权重损失控制样本均衡


在多标签非互斥的分类任务(一个对象可以被预测出多种分类)中,还可以使用   BCEWithLogitsLoss函数,在计算损失时为每个类别分配不同的权重。


这种方式可以使模型对每个类别的预测能力达到均衡。例如,多分类的个数是6,则可以使用类似的代码指定每个分类的权重:


pos_weight = torch.ones( [6] )#为每个分类指定权重为1
criterion = torch.nn.BCEwithLogitsioss( posweight = pos_weight)


2 分类模型常用的损失函数


2.1 BCELoss


用于单标签二分类或者多标签二分类,即一个样本可以有多个分类,彼此不互斥。输出和目标的维度是(batch,C),batch是样本数量,C是类别数量。每个C值代表属于一类标签的概率。


2.2 BCEWthLogtsLoss


用于单标签二分类或者多标签二分类,它相当于Sigmoid+BCELoss,即对网络输出的结果先做一次Sigmoid将其值域变为[0,1],再对其与标签之间做BCELoss。


当网络最后一层使用nn.Sigmoid时,就用BCELoss。


当网络最后一层不使用nn.Sigmoid时,就用BCEWithLogitsLoss。


2.3 CrossEntropyLoss


用于多类别分类,输出和目标的维度是(batch,C),batch是样本数量,C是类别数量。每一个C之间是互斥的,相互关联的。


对于每一个batch的C个值,一起求每个C的softmax,所以每个batch的所有C个值之和是1,哪个值大,代表其属于哪一类。


若用于二分类,那输出和目标的维度是(batch,2)。

目录
相关文章
|
22天前
|
机器学习/深度学习 关系型数据库 MySQL
大模型中常用的注意力机制GQA详解以及Pytorch代码实现
GQA是一种结合MQA和MHA优点的注意力机制,旨在保持MQA的速度并提供MHA的精度。它将查询头分成组,每组共享键和值。通过Pytorch和einops库,可以简洁实现这一概念。GQA在保持高效性的同时接近MHA的性能,是高负载系统优化的有力工具。相关论文和非官方Pytorch实现可进一步探究。
61 4
|
2天前
|
机器学习/深度学习 存储 计算机视觉
r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现-4
r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现
32 11
|
1天前
|
网络协议 Linux Shell
【linux网络(一)】初识网络, 理解四层网络模型
【linux网络(一)】初识网络, 理解四层网络模型
|
2天前
|
机器学习/深度学习 算法 数据可视化
r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现-3
r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现
10 0
|
2天前
|
算法 数据可视化
r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现-1
r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现
17 0
|
6天前
|
机器学习/深度学习 数据可视化 Shell
用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化(二)
用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
30 1
|
6天前
|
机器学习/深度学习 数据采集 数据可视化
用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化(一)
用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
42 0
|
6天前
|
机器学习/深度学习 算法 PyTorch
PyTorch模型优化与调优:正则化、批归一化等技巧
【4月更文挑战第18天】本文探讨了PyTorch中提升模型性能的优化技巧,包括正则化(L1/L2正则化、Dropout)、批归一化、学习率调整策略和模型架构优化。正则化防止过拟合,Dropout提高泛化能力;批归一化加速训练并提升性能;学习率调整策略动态优化训练效果;模型架构优化涉及网络结构和参数的调整。这些方法有助于实现更高效的深度学习模型。
|
6天前
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch与迁移学习:利用预训练模型提升性能
【4月更文挑战第18天】PyTorch支持迁移学习,助力提升深度学习性能。预训练模型(如ResNet、VGG)在大规模数据集(如ImageNet)训练后,可在新任务中加速训练,提高准确率。通过选择模型、加载预训练权重、修改结构和微调,可适应不同任务需求。迁移学习节省资源,但也需考虑源任务与目标任务的相似度及超参数选择。实践案例显示,预训练模型能有效提升小数据集上的图像分类任务性能。未来,迁移学习将继续在深度学习领域发挥重要作用。
|
7天前
|
机器学习/深度学习 数据采集 数据可视化
R语言用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
R语言用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
115 7