疑惑及个人见解
1. 《数理统计》与《概率论》
个人理解《数理统计》侧重于在样本空间上对数据进行研究,而《概率论》是在整个数据空间上研究数据特性;《数理统计》是根据局部到整体,而《概率论》直接研究整体。
2. 均值与期望
均值是《数理统计》中的含义,即研究的是样本空间上的中心点问题;期望是《概率论》上的意义,即研究的是整个数据空间上的中心点问题;因此,期望是恒定不变的,均值是沿期望波动的,而且受异常值影响较大;根据大数定理,当样本的个数趋于无穷时,均值收敛于期望,即这时,均值就是期望。
3. 独立、互斥、相关
两个事件相互独立是指两个事件发生互不影响,既可以同时发生,也可以不同时发生;互斥是指两个事件不可能同时发生,因此互斥事件一定不相互独立;相关是指两个事件发生存在依赖关系,如A的变大,B也跟着变大或变小;
4. 观察值、真实值和预测值
观察值一般指我们拿到的数据,一般是真实值的表征 ,可能存在误差,而预测值是我们根据当前数据集建立的模型的输出值。一般与真实值存在偏差,与观测值也存在偏差。
5.偏差、误差、方差,噪声
这三个最容易理解的是方差,方差表征了样本数据集围绕均值的波动情况。偏差=误差。噪声是指观察值与真实值之间的偏差,受观测方式的影响,观察值于真实值之间存在一定的偏差。
6.机器学习三要素
模型可以理解为输出函数;策略可以理解为挑选出最佳模型的方法,如损失函数+风险函数;算法可以理解为求解模型中的参数