【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树

【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树 | 树根属性选择 )（一）

2022-01-19 988

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树 | 树根属性选择 )（一）

文章目录

I . 决策树模型

II . 决策树模型示例

III . 决策树算法列举

IV . 决策树算法示例

V . 决策树算法性能要求

VI . 决策树模型创建 ( 递归创建决策树 )

VII . 决策树树根属性选择

I . 决策树模型

1 . 决策树 : 决策时基于 “树” 结构 , 这也是模拟人在进行决策时采用的策略 ;

2 . 决策树组成 : 根节点 , 内部节点 , 叶子节点 , 这些节点都是数据的属性 ( 特征 ) ;

① 根节点 : 最初始判定的属性 , 判定区域是全局的数据集 ;

② 内部节点 : 中间的判定属性 , 判定区域是符合某些特征的子数据集 ;

② 叶子节点 : 决策结果 , 位于决策树的最底层 , 每个叶子节点都是一个决策结果 ;

3 . 决策树模型过程 :

① 训练过程 : 使用训练集数据确定决策时使用的属性 , 确定根节点 , 内部节点 , 叶子节点的属性划分 , 训练决策树模型 ;

② 预测过程 : 从根节点特征开始 , 根据决策树中的判定序列依次从根节点向下判定 , 直到一个叶子节点 ;

II . 决策树模型示例

1 . 需求场景 :

① 需求 : 电商网站为用户进行分类 , 目的是确定该用户是否有可能购买某件商品 , 然后为其推送指定商品的广告 ;

② 决策树使用 : 如何对用户进行分类 , 这里就用到了决策树模型 , 将用户分成不同的类别 ;

2 . 数据集 : 决策过程中 , 根据每个节点所处理的数据集的特征 , 将其划分到不同的子节点中进行处理 ; 如数据集中是 100 个用户的信息 ;

3 . 决策树构成 :

① 根节点决策 : 根节点处理年龄特征 , 小于 30 岁的用户划分到一组 , 大于 30 岁的用户划分到另一组 ;

② 内部节点决策 : 然后在小于 30 岁的用户中继续判定 , 学生划分成一组 , 非学生划分成一组 ;

③ 叶子节点决策结果 : 学生会买电脑 , 非学生不会买电脑 ;

III . 决策树算法列举

1 . 常用的决策树算法 :

① CLS 算法 : 这是第一个决策树算法 , 1966 年提出 ;

② ID3 算法 : 该算法使决策树称为机器学习主流技术 , 1979 年提出 ;

③ C4.5 算法 : 最常用的决策树算法 ; 1993 年提出 ;

④ 区别 : 上述三个算法五个组件基本一致 , 唯一的区别是确定属性划分时的策略不同 , 即将哪个属性放在树根 , 将哪个属性放在内部节点上 , 内部节点的属性所在层级如何设置 ;

2 . 属性划分策略 :

① ID3 算法属性划分策略 : ID3 使用信息增益策略 ;

② C4.5 算法属性划分策略 : C4.5 使用的是增益率策略 ;

3 . CART 算法 : 既可以用于分类任务 ( 结果是离散值 ) , 也可以用于回归任务 ( 结果是连续值 ) ;

4 . FR 算法 : 随机森林算法 ; 使用了数据挖掘 , 机器学习中的集成思想 ; 有很多差的分类器 , 准确率都很低 , 但是多个分类器集成起来 , 准确率就很高 ;

IV . 决策树算法示例

1 . 需求场景 :

① 需求 : 电商网站为用户进行分类 , 目的是确定该用户是否有可能购买某件商品 , 然后为其推送指定商品的广告 ;

② 决策树使用 : 如何对用户进行分类 , 这里就用到了决策树模型 , 将用户分成不同的类别 , 买的一类 , 和不买的一类 ;

2 . 模拟数据集 : 给出一组数据集 , 后面的所有计算都是基于该数据集进行的 ;

需求 : 根据年龄 , 收入水平 , 是否是学生 , 信用等级 , 预测该用户是否会购买商品 ;

年龄收入水平是否是学生信用等级是否购买商品

小于 30 岁高收入不是一般不会

小于 30 岁高收入不是很好不会

31 ~ 39 岁高收入不是一般会

40 岁以上中等收入不是一般会

40 岁以上低收入是一般会

40 岁以上低收入是很好不会

31 ~ 40 岁低收入不是很好会

小于 30 岁中等收入不是一般不会

小于 30 岁低收入是一般会

40 岁以上中等收入是一般会

小于 30 岁中等收入是很好会

31 ~ 39 岁中等收入不是很好会

31 ~ 39 岁高收入是一般会

40 岁以上中等收入不是很好不会

【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树 | 树根属性选择 )（一）

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树 | 树根属性选择 )（一）

热门文章

最新文章

相关课程

相关电子书