五、分类模型及超参数调优

简介: 五、分类模型及超参数调优

一、分类模型

1.1、决策树
  • 优点
    一、决策树易于理解和解释。我们可以通过言语就能是别人明白
    二、数据的准备往往是简单或者是不必要的。其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性
    三、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
    四、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。
    五、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
    六、可以对有许多属性的数据集构造决策树。
    七、决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。
  • 缺点
    一、在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。
    二、决策树处理缺失数据时的困难。
    三、过度拟合问题的出现。
    四、忽略数据集中属性之间的相关性。
1.2、神经网络
  • 优点

分类的准确度高,并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系,具备联想记忆的功能等。

  • 缺点

神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值;不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。

1.3、支持向量机(SVM)
  • 优点
    一、可以解决小样本情况下的机器学习问题。
    二、可以提高泛化性能。
    三、可以解决高维问题。
    四、可以解决非线性问题。
    五、可以避免神经网络结构选择和局部极小点问题。
  • 缺点
    一、 对缺失数据敏感。
    二、 对非线性问题没有通用解决方案,必须谨慎选择Kernelfunction来处理。
1.4、朴素贝叶斯
  • 优点
    一、 朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
    二、 NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
  • 缺点
    一、需要知道先验概率。
    二、分类决策存在错误率
1.5、Adaboost算法
  • 优点
    一、adaboost是一种有很高精度的分类器。
    二、可以使用各种方法构建子分类器,Adaboost算法提供的是框架。
    三、当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单。
    四、简单,不用做特征筛选。
    五、不用担心overfitting。
  • 缺点
    一、AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。
    二、数据不平衡导致分类精度下降。
    三、训练比较耗时,每次重新选择当前分类器最好切分点。
1.6、逻辑回归
  • 优点
    一、预测结果是界于0和1之间的概率;
    二、可以适用于连续性和类别性自变量;
    三、容易使用和解释;

大概有这些模型

二、分类模型评估

混淆矩阵是二分类问题的多维衡量指标体系,在样本不平衡时极其有用。在混淆矩阵中,我们将少数类认为是正

例,多数类认为是负例。在决策树,随机森林这些普通的分类算法里,即是说少数类是1,多数类是0。在SVM里,

就是说少数类是1,多数类是-1。普通的混淆矩阵,一般使用{0,1}来表示。混淆矩阵阵如其名,十分容易让人混

淆,在许多教材中,混淆矩阵中各种各样的名称和定义让大家难以理解难以记忆。我为大家找出了一种简化的方式

来显示标准二分类的混淆矩阵

  • 准确率

准确率Accuracy就是所有预测正确的所有样本除以总样本,通常来说越接近1越好。

  • 精确度,召回率和F1 score:
    精确度

    精确度Precision,又叫查准率,表示所有被我们预测为是少数类的样本中,真正的少数类所占的比例
    召回率

    召回率

    召回率Recall,又被称为敏感度(sensitivity),真正率,查全率,表示所有真实为1的样本中,被我们预测正确的样
    本所占的比例。
  • ROC曲线

建立ROC曲线的根本目的是找寻Recall和FPR之间的平衡,让我们能够衡量模型在尽量捕捉少数类的时候,误伤多数类的情况会如何变化。横坐标是FPR,代表着模型将多数类判断错误的能力,纵坐标Recall,代表着模型捕捉少数类的能力,所以ROC曲线代表着,随着Recall的不断增加,FPR如何增加。我们希望随着Recall的不断提升,FPR增加得越慢越好,这说明我们可以尽量高效地捕捉出少数类,而不会将很多地多数类判断错误。所以,我们希望看到的图像是,纵坐标急速上升,横坐标缓慢增长,也就是在整个图像左上方的一条弧线。这代表模型的效果很不错,拥有较好的捕获少数类的能力。

当然我们还不只是有这些模型评估,只不过这几种模型评估事物我们常见的,希望能够了解到。

三、超参数优化

在模型建立之后,我们将得到模型预测分数,预测分类,当然我们需要了解到怎么样将超参数进行优化。可以参考上一篇和分类模型超参数一样的。

最后感谢阅读,如有不足,敬请谅解,谢谢。

路漫漫其修远兮,吾将上下而求索。

相关文章
|
6月前
|
人工智能 自然语言处理 物联网
RoSA: 一种新的大模型参数高效微调方法
随着语言模型不断扩展到前所未有的规模,对下游任务的所有参数进行微调变得非常昂贵,PEFT方法已成为自然语言处理领域的研究热点。PEFT方法将微调限制在一小部分参数中,以很小的计算成本实现自然语言理解任务的最先进性能。
160 1
构建一个分类模型,如何选择合适的损失函数和评估指标
构建一个分类模型,如何选择合适的损失函数和评估指标
|
2月前
|
机器学习/深度学习 数据可视化 数据建模
使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整,提高模型性能增强结果可解释性
在分类问题中,调整决策的概率阈值虽常被忽视,却是提升模型质量的有效步骤。本文深入探讨了阈值调整机制,尤其关注多类分类问题,并介绍了一个名为 ClassificationThresholdTuner 的开源工具,该工具自动化阈值调整和解释过程。通过可视化功能,数据科学家可以更好地理解最优阈值及其影响,尤其是在平衡假阳性和假阴性时。此外,工具支持多类分类,解决了传统方法中的不足。
42 2
使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整,提高模型性能增强结果可解释性
|
1月前
|
机器学习/深度学习 算法
回归模型的评估及超参数调优
回归模型的评估及超参数调优
23 0
|
3月前
|
自然语言处理
评估数据集CGoDial问题之数据集中包含哪些基线模型
评估数据集CGoDial问题之数据集中包含哪些基线模型
|
5月前
|
存储 人工智能 缓存
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
【6月更文挑战第26天】无问芯穹Qllm-Eval评估了11个大模型(如OPT、LLaMA2)在多种参数配置和任务下的量化效果,探索权重量化、激活量化等方法对性能、速度和内存的影响。研究发现,W4、W4A8量化通常保持在2%的性能损失范围内,但最佳策略取决于模型大小、任务类型及硬件,提示了选择压缩方案时需灵活适应。[[arxiv.org/pdf/2402.18158.pdf](https://arxiv.org/pdf/2402.18158.pdf)]
83 6
|
5月前
|
机器学习/深度学习
探索机器学习中的超参数调优策略
在机器学习模型的训练过程中,超参数的选择和调优对模型性能有着至关重要的影响。本文探讨了不同的超参数调优策略,分析了它们的优缺点,并结合实际案例展示了如何有效地选择和调整超参数以提升模型的准确性和泛化能力。
102 1
|
6月前
|
机器学习/深度学习 算法
大模型开发:你如何优化超参数?
超参数优化是提升机器学习和深度学习模型性能的关键,包括手动调整、网格搜索、随机搜索、贝叶斯优化、基于梯度的优化、进化算法等方法。此外,利用超参数调优工具、迁移学习、元学习和集成方法也是常用策略。实践中,应结合项目需求和资源选择合适的方法,并配合交叉验证和提前停止技术。
199 1
|
6月前
|
机器学习/深度学习 算法 Python
探索XGBoost:参数调优与模型解释
探索XGBoost:参数调优与模型解释
381 2
|
机器学习/深度学习
hyperopt用于机器学习参数调整
本文举例了如何使用hyperopt对机器学习参数进行调整
104 0