“没有免费午餐”:没有任何一种分类器可以在所有可能的应用场景下都有良好的表现
总而言之,分类器的性能、计算能力和预测能力,在很大程度上都依赖于用于模型训练的相关数据。训练机器学习算法所涉及的五个主要步骤可以概述如下:
- 特征的选择
- 确定性能评价标准
- 选择分类器及其优化算法
- 对模型性能的评估
- 算法的调优
选择机器学习模型时应考虑的问题:
- 性能:
模型结果的质量是选择模型时应考虑的基本因素。优先选择能够使性能最大化的算法是重中之重
对性能的判断标准例如正确率、准确率和查全率。并非每一个度量都是适用于所有的情况。
2.可解释性
大多数的情况下对模型的解释至关重要,例如论文期刊中需要将每一步进行解释;然而好多深度学习算法内置参数就像黑盒一般。可解释强的有:svm 、knn、决策树
3.数据集的大小
神经网络在处理和合成大量的数据方面的表现优异,一些传统的机器学习仅需要少量的数据集就可以得到比较不错的效果,对于深度神经网络则对数据需求量较大。此时我们就可以考虑自己实际