机器学习(西瓜书)简答题总结

简介: 机器学习(西瓜书)简答题总结

集成学习的主要特点包括:

1.模型的泛化能力的强,减少过拟合和欠拟合的风险。

2.预测性能好:由于集成学习可以组合多个弱学习器,所以它可以将多个模型的优点进行整合,从而提高整体的预测性能。

3.鲁棒性强

4.可扩展性强:由于集成学习可以将多个模型进行组合,所以它可以方便地扩展到更大的数据集和更复杂的模型。

5.可解释性好:由于集成学习的模型比较复杂,所以它的可解释性比较差,难以理解和解释模型的预测结果。


集成学习可以根据不同的分类方式进行分类,下面是几种常见的分类方式:

      1.模型的不同:集成学习可以根据基础模型的不同进行分类,例如bagging、boosting、stacking等。

       2.模型之间的关系:集成学习可以根据模型之间的关系进行分类,例如平均法、投票法。

       3.模型的训练方式:集成学习可以根据模型的训练方式进行分类,例如串行集成、并行集成等。

       4.集成学习的目标:集成学习可以根据目标进行分类,例如分类问题、回归问题等。


集成学习要求:基分类器的性能不应该太差。基分类器应具有多样性。基分类器之间应该有独立性。集成模型的数目应该适当。集成学习的最终结果应该由多个基分类器的预测结果加权或投票得到。


评价模型的好坏是机器学习中非常重要的一步,以下是几种常见的模型评价方法:

      1.准确率(Accuracy):准确率是指模型预测正确的样本数占总样本数的比例。准确率越高,说明模型的预测能力越好。

     2.查全率(Recall):查全率是指模型正确预测为正的样本数占所有真实正样本数的比例召回率越高,反映了模型发现正例的能力。

     3.  查准率(Precision):查准率是指模型正确预测为正的样本数占所有预测为正样本数的比例。反映了模型的预测能力。

      4.F1-score:F1-score是精确率和召回率的调和平均数。F1-score越高,说明模型的综合表现越好。

       5.ROC曲线和AUC值:ROC曲线是反映模型真阳性率与假阳性率之间关系的曲线,AUC值是ROC曲线下面积。AUC值越大,说明模型的性能越好。

        6.混淆矩阵:混淆矩阵是将预测结果与真实结果进行比较的矩阵。通过混淆矩阵可以计算出准确率、召回率、精确率等指标。

     7 .均方误差:预测值与真实值之间的差值的平方的平均值,反映了模型的精度和偏差。    


   支持向量机可以分为以下几类:

            1.线性支持向量机(Linear SVM):线性支持向量机是指用一个超平面来分隔两个不同类别的样本。它的目标是找到一个超平面,使得两个不同类别的样本距离超平面最近的点到超平面的距离最大化。线性支持向量机适用于线性可分的情况。

             2.非线性支持向量机(Nonlinear SVM):非线性支持向量机是通过非线性变换将数据映射到一个高维空间中,再在高维空间中用一个超平面来分隔两个不同类别的样本。非线性支持向量机适用于非线性可分的情况。

               3.多类别支持向量机(Multiclass SVM):多类别支持向量机是指将多个二元分类器组合成一个多类别分类器来解决多类别分类问题。常见的方法有一对多法和一对一法。


线性判别分析(LDA)是一种经典的线性降维技术,同时也可以用于分类任务。下面是LDA实现分类任务的步骤:

              1.数据准备:首先需要将数据集分为训练集和测试集,通常采用交叉验证的方法进行划分。对于每个样本,需要将其特征向量和类别标签分别存储。

                2.计算类内散度矩阵和类间散度矩阵:类内散度矩阵是指同一类别的样本之间的散度矩阵,而类间散度矩阵是指不同类别之间的散度矩阵。可以根据数据集计算出这两个矩阵。

                 3.计算投影向量:投影向量是指将原始数据映射到低维空间中的向量,可以通过计算类内散度矩阵和类间散度矩阵的特征向量来得到。

                 4.训练模型:将训练集映射到低维空间中,然后采用分类器对样本进行分类。常见的分类包括k近邻算法、支持向量机等。

              5.模型评估:将测试集映射到低维空间中,然后采用训练好的分类器对样本进行预测,最后根据预测结果计算出模型的准确率、召回率、F1-score等指标进行评估。

目录
相关文章
|
机器学习/深度学习 算法
经典机器学习系列(六)【集成学习】之周志华西瓜书-AdaBoost算法证明解析
经典机器学习系列(六)【集成学习】之周志华西瓜书-AdaBoost算法证明解析
145 0
|
机器学习/深度学习 算法 数据挖掘
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
1749 0
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
|
机器学习/深度学习 算法
机器学习-西瓜书、南瓜书第六章
支持向量机(Support Vector Machine),简称SVM,是一种经典的二分类模型,属于监督学习算法。
111 0
机器学习-西瓜书、南瓜书第六章
|
机器学习/深度学习
机器学习-西瓜书、南瓜书第五章
神经网络起源于生物神经元的生物原理,生物神经元通常包括细胞体、树突和轴突等部分。其中,树突适用于接受输入信息,突触对输入信息进行处理,达到一定条件后由轴突产生输出,此时神经元表现为激活兴奋的状态。
96 0
机器学习-西瓜书、南瓜书第五章
|
机器学习/深度学习 算法
机器学习-西瓜书、南瓜书第四章
基于树结构来进行决策,体现人类在面临决策问题时一种很自然的处理机制
67 0
机器学习-西瓜书、南瓜书第四章
|
机器学习/深度学习 数据采集 算法
机器学习-西瓜书、南瓜书第三章
回归任务最常用的性能度量是均方误差,因为均方误差有比较好的几何意义,对应了最常用的**“欧氏距离”,最小二乘法就是基于均方误差进行模型求解的。 求解均方误差最小化的过程称为参数估计
97 0
机器学习-西瓜书、南瓜书第三章
|
机器学习/深度学习 算法 数据挖掘
机器学习-西瓜书第一、二章
数据集:所有数据的集合 训练集:训练样本的集合 属性(特征):某事物或对象在某方面表现的性质 属性值:属性的取值 属性空间/样本空间/输入空间:属性张成的空间 泛化能力:学得模型适用于新样本的能力(泛化能力强更好地适用于样本空间)
143 0
机器学习-西瓜书第一、二章
|
机器学习/深度学习 算法
机器学习【西瓜书/南瓜书】--- 第2章模型评估与选择(下)(学习笔记+公式推导)
本博客为博主在学习 机器学习【西瓜书 / 南瓜书】过程中的学习笔记,每一章都是对《西瓜书》、《南瓜书》内容的总结和提炼笔记,博客可以作为各位读者的辅助思考,也可以做为读者快读书籍的博文,本博客对西瓜书所涉及公式进行详细的推理以及讲解,本人认为,不推导公式所学得的知识是没有深度的,是很容易忘记的,有些公式推导起来并不复杂,只是被看似复杂的数学表达式所“吓唬”,希望大家拿上纸笔,跟着博主一起学习,一起推导。
188 0
机器学习【西瓜书/南瓜书】--- 第2章模型评估与选择(下)(学习笔记+公式推导)
|
机器学习/深度学习 算法 数据挖掘
机器学习【西瓜书/南瓜书】--- 第1章绪论(学习笔记+公式推导)
本博客为博主在学习 机器学习【西瓜书 / 南瓜书】过程中的学习笔记,每一章都是对《西瓜书》、《南瓜书》内容的总结和提炼笔记,博客可以作为各位读者的辅助思考,也可以做为读者快读书籍的博文,本博客对西瓜书所涉及公式进行详细的推理以及讲解,本人认为,不推导公式所学得的知识是没有深度的,是很容易忘记的,有些公式推导起来并不复杂,只是被看似复杂的数学表达式所“吓唬”,希望大家拿上纸笔,跟着博主一起学习,一起推导。
200 0
机器学习【西瓜书/南瓜书】--- 第1章绪论(学习笔记+公式推导)
|
3月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
184 14