losses per-batch-element：

pytorch的入门教程中有这样的一句：

    
  
 
    
     
      
          1 
        

          2 
        

          3 
        

          4 
        

          5 
        
 
      
         loss
          
         =
          
         torch
         .
         nn
         .
         MSELoss
         (
         size_average
         =
         True
         ) 
        

         input
          
         =
          
         Variable
         (
         torch
         .
         ones
         (
         2
         ,
         2
         )
         ,
          
         requires_grad
         =
         True
         ) 
        

         target
          
         =
          
         Variable
         (
         torch
         .
         Tensor
         (
         [
         [
         3
         ,
         3
         ]
         ,
         [
         3
         ,
         3
         ]
         ]
         )
         ) 
        

         output
          
         =
          
         loss
         (
         input
         ,
          
         target
         ) 
        

         output
         .
         backward
         (
         ) 
        
 
     
 
    
  

上面的程序很简单，设定一个loss函数，然后设定一个input和target进行loss计算，然后再backward。

这里我们不看反向过程，只看output的值是多少：

 
          1 
        
          2 
        
          3 
        
         Variable
         containing
         : 
        
         4 
        
         [
         torch
         .
         FloatTensor
         of
         size
         
         1
         ]

这个4是output的值，可以看待这个值是一个scalar而并不是一个向量。

我们再来看一段程序：

    
          1 
        
          2 
        
          3 
        
          4 
        
          5 
        
          6 
        
          7 
        
          8 
        
          9 
        
          10 
        
          11 
        
         loss
          
         =
          
         torch
         .
         nn
         .
         MSELoss
         (
         size_average
         =
         False
         ) 
        
         input
          
         =
          
         Variable
         (
         torch
         .
         ones
         (
         2
         ,
         2
         )
         ,
          
         requires_grad
         =
         True
         ) 
        
         target
          
         =
          
         Variable
         (
         torch
         .
         Tensor
         (
         [
         [
         3
         ,
         3
         ]
         ,
         [
         3
         ,
         3
         ]
         ]
         )
         ) 
        
         output
          
         =
          
         loss
         (
         input
         ,
          
         target
         ) 
        
         output
         .
         backward
         (
         ) 
        
         output 
        
         Out
         [
         11
         ]
         :
           
         Variable 
         containing
         : 
        
         16 
        
         [
         torch
         .
         FloatTensor 
         of 
         size
          
         1
         ]

同样一段程序，怎么就变成16了，原因是在设置loss函数中我们把参数size_average设为了False。

当size_average为Ture的时候，我们得到4，反之我们得到16，结合size_average参数的官方解释：

也就是说True的loss除以了loss的数量(此处n=4)，False的时候loss为summed的也就是全部loss的总和。

size_average参数默认为True，也就是说我们平时计算的时候得到的loss是平均loss。

这样会出现怎么问题呢：

这个参数默认是True，我们平时的训练集都是规整的，也就是说训练集中的每个类数量几乎差不多的训练集，然后我们算出了损失，比如这个损失是个[10]的Tensor，这里的10就是你之前说的N 也就是分类的数量，这个参数设为True则在得出的所有loss中除以N 如果为Flase则不处理直接把所有类的loss直接加起来给你。这个平时加起来和除以N在实际计算中影响不大，但是如果是别的任务比如RNN 这时候分类loss就需要权重了。每个分类的loss的权重系数应该不一样，或者说训练集中某些类的数据没有另一类多，得出的损失有可能也有缺陷也需要参数，这时在pytorch中我们就无能为力了，因为其只能输出平均或者总和的loss 不能输出a batch of losses 也就是一个类一个损失，这种输出后期我们可以自由处理。所以说这个是pytorch的一个缺陷，在github中的issue中有人提出来了。pytorch的编写人员正在修改底层。

该问题相关的链接：

如何自定义不同权重loss：https://github.com/pytorch/pytorch/issues/563

loss中奇怪的问题：https://discuss.pytorch.org/t/the-default-value-of-size-average-true-in-loss-function-is-a-trap/4251

A trap of parameter ‘size_average’ in pytorch 详解

How to combine multiple criterions to a loss function?

Get loss for individual samples

losses per-batch-element：https://github.com/pytorch/pytorch/issues/264

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

A trap of parameter ‘size_average’ in pytorch 详解

losses per-batch-element：https://github.com/pytorch/pytorch/issues/264

热门文章

最新文章

相关电子书