basic concept| 学习笔记

简介: 快速学习 basic concept。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):basic concept】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/15641


basic concept

 

在决策数这一章中,我们将向大家介绍决策树的基本概念、hunt 算法、评估、属性测试条件的方法、过拟合以及树的剪枝。

我们首先来看一下决策树。决策树分类方法是通过给定的训练集构建一棵决策树分类模型,然后利用决策树分类模型,对未标记的数据进行分类。

image.png

对于决策树分类模型,大家可以看一下我们的 PPT。它是一种由多个节点和有向边组成的树状网络结构。在决策树模型中,它的节点主要有三类,最上面的这个节点,我们把它称之为叫做根结点,它没有入编,只有两条或多条出边。其次黄色节点把它称之为叫做中间节点。对于中间节点,它有一条路边,有两条或多条出边。这一类节点就是蓝色代表的节点,我们把它称之为叫做叶子节点。对于叶子节点,它只有一条入边,没有出边。

在决策树模型中,我们把叶子节点又称之为叫做终结节点。其余的根节点和中间节点称之为非终结节点。在决策树模型中,非中间节点它代表的是属性测试条件。

根据属性测试条件,我们可以把落入到这个节点上的数据集划分为两个或多个子集。而我们的叶子节点代表的是类的数值 no 或者 yes,它的含义是录入到叶子节点上的所有数据对象的类别等于叶子节点的值。一旦我们的决策树模型构建好了,我们就可以对我们未标记的数据对象进行检测。

image.png

比如我们这里举一个例子,我们给出了一个未标记数据对象,根据我们的决策树模型,首先从根节点开始检测,根节点的属性是 home owner,我们根据我们的被标记数据对象 home owner 的取值 no 选择一个合适的分支,沿着这个分支,我们的未标记数据对象落入到下一个节点,下一个节点是中间节点,我们可以根据这个中间节点所代表的属性测试条件,继续对我们的未标记数据进行检测。对于我们这个节点,它的属性是 mary status,也就是婚姻状态。再根据我们对标的属性对象的婚姻状态取值,Mary 的又可以选择一个合适的分支落入到下一个节点。

此时我们录入的节点是一个叶子结点,其值为 no,它的含义是代表落入到这个节点上的所有数据对象的被标签是 no,所以我们最后得到这个未标记数据对象的类别就为  no。

相关文章
|
8月前
|
算法 安全 编译器
【C++20 新特性Concepts 概念】C++20 Concepts: Unleashing the Power of Template Programming
【C++20 新特性Concepts 概念】C++20 Concepts: Unleashing the Power of Template Programming
337 0
|
5月前
|
存储 网络协议 Linux
Overview of Concepts
Overview of Concepts
49 1
|
机器学习/深度学习 自然语言处理 PyTorch
Re6:读论文 LeSICiN: A Heterogeneous Graph-based Approach for Automatic Legal Statute Identification fro
Re6:读论文 LeSICiN: A Heterogeneous Graph-based Approach for Automatic Legal Statute Identification fro
Re6:读论文 LeSICiN: A Heterogeneous Graph-based Approach for Automatic Legal Statute Identification fro
|
机器学习/深度学习 算法
Data Structures and Algorithms (English) - 7-28 Review of Programming Contest Rules(30 分)
Data Structures and Algorithms (English) - 7-28 Review of Programming Contest Rules(30 分)
220 0
Data Structures and Algorithms (English) - 7-28 Review of Programming Contest Rules(30 分)
|
机器学习/深度学习 测试技术 Python
PAT (Basic Level) Practice (中文)第1002题
PAT (Basic Level) Practice (中文)第1002题
122 0
PAT (Advanced Level) Practice - 1107 Social Clusters(30 分)
PAT (Advanced Level) Practice - 1107 Social Clusters(30 分)
147 0
|
Linux Windows
6 Effective Methods to Learn New Technologies Faster
Technology is always evolving, and developers need to learn new products and languages faster to cope with these changes.
6290 0
6 Effective Methods to Learn New Technologies Faster
Basic Concepts of Genetic Data Analysis
Basic Concepts of Genetic Data Analysis
917 0

热门文章

最新文章