误差分析是在科学、工程、统计学和机器学习等领域中常用的一种方法,用于评估测量或预测的准确性,并深入了解误差的来源。以下是一些关于误差分析的关键概念:

误差分布(Error Distribution): 通过分析误差的分布,可以了解误差是如何在样本集中分布的。误差分布的形状可能对模型的性能和准确性提供重要信息。
误差来源分析: 误差分析的一个重要方面是确定误差的来源。这可能包括测量设备的精度、数据收集方法、模型的假设等。通过了解误差的根本原因,可以采取措施来改进测量或预测的准确性。
交叉验证(Cross-Validation): 在机器学习中,交叉验证是一种通过多次拆分数据集、训练模型和评估性能的方法,以更全面地了解模型在不同数据集上的表现,并降低由于特定数据集造成的误差分析的偏差。
误差 $\varepsilon_i$ 等于第 i 个样本实际的值 $y_i$ 减去预测的值 $\hat{y}$ ,公式可以表达为如下:
$\varepsilon_i = |y_i - \hat{y}|$
$\varepsilon_i = |y_i - W^Tx_i|$
假定所有的样本的误差都是独立的,有上下的震荡,震荡认为是随机变量,足够多的随机变量叠加之后形成的分布,它服从的就是正态分布,因为它是正常状态下的分布,也就是高斯分布!均值是某一个值,方差是某一个值。 方差我们先不管,均值我们总有办法让它去等于零 0 的,因为我们这里是有截距b, 所有误差我们就可以认为是独立分布的,1<=i<=n,服从均值为 0,方差为某定值的高斯分布。机器学习中我们假设误差符合均值为0,方差为定值的正态分布!!!
