五、分类模型及超参数调优

简介: 五、分类模型及超参数调优

一、分类模型

1.1、决策树
  • 优点
    一、决策树易于理解和解释。我们可以通过言语就能是别人明白
    二、数据的准备往往是简单或者是不必要的。其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性
    三、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
    四、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。
    五、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
    六、可以对有许多属性的数据集构造决策树。
    七、决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。
  • 缺点
    一、在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。
    二、决策树处理缺失数据时的困难。
    三、过度拟合问题的出现。
    四、忽略数据集中属性之间的相关性。
1.2、神经网络
  • 优点

分类的准确度高,并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系,具备联想记忆的功能等。

  • 缺点

神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值;不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。

1.3、支持向量机(SVM)
  • 优点
    一、可以解决小样本情况下的机器学习问题。
    二、可以提高泛化性能。
    三、可以解决高维问题。
    四、可以解决非线性问题。
    五、可以避免神经网络结构选择和局部极小点问题。
  • 缺点
    一、 对缺失数据敏感。
    二、 对非线性问题没有通用解决方案,必须谨慎选择Kernelfunction来处理。
1.4、朴素贝叶斯
  • 优点
    一、 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
    二、 NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
  • 缺点
    一、需要知道先验概率。
    二、分类决策存在错误率
1.5、Adaboost算法
  • 优点
    一、adaboost是一种有很高精度的分类器。
    二、可以使用各种方法构建子分类器,Adaboost算法提供的是框架。
    三、当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单。
    四、简单,不用做特征筛选。
    五、不用担心overfitting。
  • 缺点
    一、AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。
    二、数据不平衡导致分类精度下降。
    三、训练比较耗时,每次重新选择当前分类器最好切分点。
1.6、逻辑回归
  • 优点
    一、预测结果是界于0和1之间的概率;
    二、可以适用于连续性和类别性自变量;
    三、容易使用和解释;

大概有这些模型

二、分类模型评估

混淆矩阵是二分类问题的多维衡量指标体系,在样本不平衡时极其有用。在混淆矩阵中,我们将少数类认为是正

例,多数类认为是负例。在决策树,随机森林这些普通的分类算法里,即是说少数类是1,多数类是0。在SVM里,

就是说少数类是1,多数类是-1。普通的混淆矩阵,一般使用{0,1}来表示。混淆矩阵阵如其名,十分容易让人混

淆,在许多教材中,混淆矩阵中各种各样的名称和定义让大家难以理解难以记忆。我为大家找出了一种简化的方式

来显示标准二分类的混淆矩阵

  • 准确率

准确率Accuracy就是所有预测正确的所有样本除以总样本,通常来说越接近1越好。

  • 精确度,召回率和F1 score:
    精确度

    精确度Precision,又叫查准率,表示所有被我们预测为是少数类的样本中,真正的少数类所占的比例
    召回率

    召回率

    召回率Recall,又被称为敏感度(sensitivity),真正率,查全率,表示所有真实为1的样本中,被我们预测正确的样
    本所占的比例。
  • ROC曲线

建立ROC曲线的根本目的是找寻Recall和FPR之间的平衡,让我们能够衡量模型在尽量捕捉少数类的时候,误伤多数类的情况会如何变化。横坐标是FPR,代表着模型将多数类判断错误的能力,纵坐标Recall,代表着模型捕捉少数类的能力,所以ROC曲线代表着,随着Recall的不断增加,FPR如何增加。我们希望随着Recall的不断提升,FPR增加得越慢越好,这说明我们可以尽量高效地捕捉出少数类,而不会将很多地多数类判断错误。所以,我们希望看到的图像是,纵坐标急速上升,横坐标缓慢增长,也就是在整个图像左上方的一条弧线。这代表模型的效果很不错,拥有较好的捕获少数类的能力。

当然我们还不只是有这些模型评估,只不过这几种模型评估事物我们常见的,希望能够了解到。

三、超参数优化

在模型建立之后,我们将得到模型预测分数,预测分类,当然我们需要了解到怎么样将超参数进行优化。可以参考上一篇和分类模型超参数一样的。

最后感谢阅读,如有不足,敬请谅解,谢谢。

路漫漫其修远兮,吾将上下而求索。

相关文章
|
8月前
|
机器学习/深度学习 安全
一文读懂分类模型评估指标
模型评估是深度学习和机器学习中非常重要的一部分,用于衡量模型的性能和效果。本文将逐步分解混淆矩阵,准确性,精度,召回率和F1分数。
666 1
构建一个分类模型,如何选择合适的损失函数和评估指标
构建一个分类模型,如何选择合适的损失函数和评估指标
|
4月前
|
机器学习/深度学习 数据可视化 数据建模
使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整,提高模型性能增强结果可解释性
在分类问题中,调整决策的概率阈值虽常被忽视,却是提升模型质量的有效步骤。本文深入探讨了阈值调整机制,尤其关注多类分类问题,并介绍了一个名为 ClassificationThresholdTuner 的开源工具,该工具自动化阈值调整和解释过程。通过可视化功能,数据科学家可以更好地理解最优阈值及其影响,尤其是在平衡假阳性和假阴性时。此外,工具支持多类分类,解决了传统方法中的不足。
61 2
使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整,提高模型性能增强结果可解释性
|
3月前
|
机器学习/深度学习 算法
回归模型的评估及超参数调优
回归模型的评估及超参数调优
44 0
|
5月前
|
自然语言处理
评估数据集CGoDial问题之数据集中包含哪些基线模型
评估数据集CGoDial问题之数据集中包含哪些基线模型
|
7月前
|
存储 人工智能 缓存
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
【6月更文挑战第26天】无问芯穹Qllm-Eval评估了11个大模型(如OPT、LLaMA2)在多种参数配置和任务下的量化效果,探索权重量化、激活量化等方法对性能、速度和内存的影响。研究发现,W4、W4A8量化通常保持在2%的性能损失范围内,但最佳策略取决于模型大小、任务类型及硬件,提示了选择压缩方案时需灵活适应。[[arxiv.org/pdf/2402.18158.pdf](https://arxiv.org/pdf/2402.18158.pdf)]
105 6
|
8月前
|
机器学习/深度学习 算法
大模型开发:你如何优化超参数?
超参数优化是提升机器学习和深度学习模型性能的关键,包括手动调整、网格搜索、随机搜索、贝叶斯优化、基于梯度的优化、进化算法等方法。此外,利用超参数调优工具、迁移学习、元学习和集成方法也是常用策略。实践中,应结合项目需求和资源选择合适的方法,并配合交叉验证和提前停止技术。
246 1
|
机器学习/深度学习
hyperopt用于机器学习参数调整
本文举例了如何使用hyperopt对机器学习参数进行调整
117 0
|
8月前
|
机器学习/深度学习 算法 Python
探索XGBoost:参数调优与模型解释
探索XGBoost:参数调优与模型解释
430 2
|
机器学习/深度学习 算法 数据可视化
使用Optuna进行PyTorch模型的超参数调优
Optuna是一个开源的超参数优化框架,Optuna与框架无关,可以在任何机器学习或深度学习框架中使用它。本文将以表格数据为例,使用Optuna对PyTorch模型进行超参数调优。
236 0