每一个机器学习工程师都应该知道机器学习中这些常见的损失函数以及何时使用它们。
在数学优化和决策理论中,损失函数或成本函数将一个或多个变量的值映射为一个实数,该实数直观地表示与该事件相关的一些“成本”。
损失函数是机器学习算法中的一个重要部分,主要用于进行算法对特征数据集建模效果的评估,衡量算法的性能。
损失函数是每个样本预测值和真实值的差值,而成本函数是所有损失函数的平均值。但是一般两者语义没有明显的区分。损失函数直接反映了机器学习模型的预测结果。一般而言,损失函数越低,所建立的模型所提供的结果就越好。所以损失函数被用于评估模型的性能,通常人们想要损失函数最小化。
广义地说,损失函数根据应用场景可以分为两大类:分类问题和回归问题。在分类问题中,任务是预测问题所处理的所有类的各自概率。相反,在回归问题中,任务是预测一组给定的独立特征对学习算法的连续值。
假定符号如下:
n/m——训练样本的数量;
i——第i个训练样本;
y(i)——第i个样本的真实值;
y_hat(i)——第i个样本的预测值。
分类问题中的损失函数
- 二值交叉熵损失/对数损失(Binary Cross-Entropy Loss / Log Loss)
这是分类问题中最为常见的损失函数。交叉熵损失随着预测概率准确度的提高而降低,能够被用于反映分类模型(输出为0-1之间的概率)的性能。
当类别数量为2时,是二值分类问题:
当类别数量大于2时,是多分类问题:
交叉熵损失公式由正则似然函数导出,但进行了对数处理。
- 铰链损失(Hinge Loss)
用于分类问题的第二个最常见的损失函数是铰链损失函数,也是交叉熵损失函数的替代方法,主要用于支持向量机(SVM)模型评估。
铰链损失不仅对错误的预测做出惩罚,也对概率较低的正确预测做出惩罚。它主要用于分类标签为-1和1的支持向量机分类器。使用过程中需要确保将恶性类标签从0更改为-1。
回归问题中的损失函数
- 均方误差/二次损失/L2损失(Mean Square Error / Quadratic Loss / L2 Loss)
均方误差是指真实值和预测值之间的平方差的均值。是最常用的回归问题损失函数。
相应的代价函数是这些平方误差(MSE)的平均值。MSE损失函数通过平方化误差来惩罚模型的误差,这种性质使得MSE代价函数对异常值的鲁棒性降低。因此,如果数据容易出现许多异常值,则不应使用它。
- 平均绝对误差/L1损失 (Mean Absolute Error / L1 Loss)
评价绝对误差定义为实际值与预测值之间绝对差值的平均值。它是第二个最常用的回归损失函数。它测量一组预测中误差的平均大小,而不考虑它们的方向。
相应的成本函数是这些绝对误差(MAE)的平均值。与MSE损失函数相比,MAE损失函数对异常值具有更强的鲁棒性。因此,如果数据有很多异常值,可以考虑使用它。
- Huber损失/平滑平均绝对误差(Huber Loss / Smooth Mean Absolute Error)
Huber损失函数是MSE和MAE的组合,当误差较大时,取平均绝对误差,当误差变得很小时,取均方误差。转换条件由超参数𝛿(delta)控制。
delta值的选择非常关键,因为它决定了我们将什么视为异常值。因此,与基于超参数值的MSE损失函数相比,Huber损失函数对异常值不太敏感。如果数据容易出现离群值,可以考虑使用它。
- 对数余弦损失(Log-Cosh Loss)
对数余弦损失函数定义为预测误差双曲余弦的对数。它是回归任务中使用的另一个函数,比MSE损失函数平滑得多。它具有Huber损失函数的所有优点,而且它在任何地方都是两次可微的,不像Huber损失函数不具有可微性质。而一些学习算法,如XGBoost使用牛顿法来寻找最佳值,因此需要二阶导数(Hessian)。
当x较小时,
log(cosh(x))
约等于(x**2)/2
,当x较大时,约等于abs(x)-log(2)
。这意味着“logcosh”的工作原理与均方误差类似,但不会受到偶尔出现的显著错误预测的强烈影响。
- 分位数损失( Quantile Loss)
分位数是指一组中有一小部分样本低于该值。顾名思义,分位数回归损失函数用于预测分位数。对于一组预测,损失将是其平均值。
当我们对预测一个区间而不是仅仅对点预测感兴趣时,分位数损失函数是十分有用的。