一、分类模型
1.1、决策树
- 优点
一、决策树易于理解和解释。我们可以通过言语就能是别人明白
二、数据的准备往往是简单或者是不必要的。其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性
三、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
四、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。
五、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
六、可以对有许多属性的数据集构造决策树。
七、决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。 - 缺点
一、在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。
二、决策树处理缺失数据时的困难。
三、过度拟合问题的出现。
四、忽略数据集中属性之间的相关性。
1.2、神经网络
- 优点
分类的准确度高,并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系,具备联想记忆的功能等。
- 缺点
神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值;不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。
1.3、支持向量机(SVM)
- 优点
一、可以解决小样本情况下的机器学习问题。
二、可以提高泛化性能。
三、可以解决高维问题。
四、可以解决非线性问题。
五、可以避免神经网络结构选择和局部极小点问题。 - 缺点
一、 对缺失数据敏感。
二、 对非线性问题没有通用解决方案,必须谨慎选择Kernelfunction来处理。
1.4、朴素贝叶斯
- 优点
一、 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
二、 NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。 - 缺点
一、需要知道先验概率。
二、分类决策存在错误率
1.5、Adaboost算法
- 优点
一、adaboost是一种有很高精度的分类器。
二、可以使用各种方法构建子分类器,Adaboost算法提供的是框架。
三、当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单。
四、简单,不用做特征筛选。
五、不用担心overfitting。 - 缺点
一、AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。
二、数据不平衡导致分类精度下降。
三、训练比较耗时,每次重新选择当前分类器最好切分点。
1.6、逻辑回归
- 优点
一、预测结果是界于0和1之间的概率;
二、可以适用于连续性和类别性自变量;
三、容易使用和解释;
大概有这些模型
二、分类模型评估
混淆矩阵是二分类问题的多维衡量指标体系,在样本不平衡时极其有用。在混淆矩阵中,我们将少数类认为是正
例,多数类认为是负例。在决策树,随机森林这些普通的分类算法里,即是说少数类是1,多数类是0。在SVM里,
就是说少数类是1,多数类是-1。普通的混淆矩阵,一般使用{0,1}来表示。混淆矩阵阵如其名,十分容易让人混
淆,在许多教材中,混淆矩阵中各种各样的名称和定义让大家难以理解难以记忆。我为大家找出了一种简化的方式
来显示标准二分类的混淆矩阵
- 准确率
准确率Accuracy就是所有预测正确的所有样本除以总样本,通常来说越接近1越好。
- 精确度,召回率和F1 score:
精确度:
精确度Precision,又叫查准率,表示所有被我们预测为是少数类的样本中,真正的少数类所占的比例
召回率:
召回率
召回率Recall,又被称为敏感度(sensitivity),真正率,查全率,表示所有真实为1的样本中,被我们预测正确的样
本所占的比例。 - ROC曲线
建立ROC曲线的根本目的是找寻Recall和FPR之间的平衡,让我们能够衡量模型在尽量捕捉少数类的时候,误伤多数类的情况会如何变化。横坐标是FPR,代表着模型将多数类判断错误的能力,纵坐标Recall,代表着模型捕捉少数类的能力,所以ROC曲线代表着,随着Recall的不断增加,FPR如何增加。我们希望随着Recall的不断提升,FPR增加得越慢越好,这说明我们可以尽量高效地捕捉出少数类,而不会将很多地多数类判断错误。所以,我们希望看到的图像是,纵坐标急速上升,横坐标缓慢增长,也就是在整个图像左上方的一条弧线。这代表模型的效果很不错,拥有较好的捕获少数类的能力。
当然我们还不只是有这些模型评估,只不过这几种模型评估事物我们常见的,希望能够了解到。
三、超参数优化
在模型建立之后,我们将得到模型预测分数,预测分类,当然我们需要了解到怎么样将超参数进行优化。可以参考上一篇和分类模型超参数一样的。
最后感谢阅读,如有不足,敬请谅解,谢谢。
路漫漫其修远兮,吾将上下而求索。