开发者社区> 问答> 正文

可以举一个决策树中过拟合现象的案例吗?

已解决

可以举一个决策树中过拟合现象的案例吗?

展开
收起
每天一个小bug 2022-07-31 11:32:36 293 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    首先通过人工的方式构造数据集,该数据集包含两类,第一类是蓝色的+号,利用高斯分布产生5000个点,并在5000个点的基础上添加400个噪音点。此外还有红色的o数据,通过均匀分布产生5400个点。而在得到训练数据后,抽取10%作为训练集,剩余的90%作为测试集,根据训练集可以构建很多种决策树模型,(下图)列出来决策树结点和Error的关系,我们可以发现,随着决策树上的结点增多,Error即分类的错误率越来越低。如图左边图形为简单结构模型,是具有4个结点的决策树模型,Error大概为0.1左右;右边为结点为50的复杂决策模型Error大约为0.9: 微信图片_20220731140729.png

    同时将两个模型的训练集和测试集的结点和Error的关系画出,如下图: 微信图片_20220731112903.png

    可以发现复杂模型刚开始的测试集和训练集与简单模型的变化类似,Error都是当结点数增加而降低,但之后训练集随着结点数的增加也同步增加了。这是因为复杂的模型很好的拟合了训练集,但训练集中有一部分数据可能代表了噪音和异常,当将噪音和异常都学习到分类模型中去时,就导致这个比较复杂的分类模型在测试集上的效果反而不好了。这就是过拟合现象。

    2022-07-31 14:09:04
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
纯干货|机器学习中梯度下降法的分类及对比分析 立即下载
纯干货 | 机器学习中梯度下降法的分类及对比分析 立即下载
机器学习在恶意样本检测方面的实践之路 立即下载