basic concept| 学习笔记

简介: 快速学习 basic concept。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):basic concept】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/15641


basic concept

 

在决策数这一章中,我们将向大家介绍决策树的基本概念、hunt 算法、评估、属性测试条件的方法、过拟合以及树的剪枝。

我们首先来看一下决策树。决策树分类方法是通过给定的训练集构建一棵决策树分类模型,然后利用决策树分类模型,对未标记的数据进行分类。

image.png

对于决策树分类模型,大家可以看一下我们的 PPT。它是一种由多个节点和有向边组成的树状网络结构。在决策树模型中,它的节点主要有三类,最上面的这个节点,我们把它称之为叫做根结点,它没有入编,只有两条或多条出边。其次黄色节点把它称之为叫做中间节点。对于中间节点,它有一条路边,有两条或多条出边。这一类节点就是蓝色代表的节点,我们把它称之为叫做叶子节点。对于叶子节点,它只有一条入边,没有出边。

在决策树模型中,我们把叶子节点又称之为叫做终结节点。其余的根节点和中间节点称之为非终结节点。在决策树模型中,非中间节点它代表的是属性测试条件。

根据属性测试条件,我们可以把落入到这个节点上的数据集划分为两个或多个子集。而我们的叶子节点代表的是类的数值 no 或者 yes,它的含义是录入到叶子节点上的所有数据对象的类别等于叶子节点的值。一旦我们的决策树模型构建好了,我们就可以对我们未标记的数据对象进行检测。

image.png

比如我们这里举一个例子,我们给出了一个未标记数据对象,根据我们的决策树模型,首先从根节点开始检测,根节点的属性是 home owner,我们根据我们的被标记数据对象 home owner 的取值 no 选择一个合适的分支,沿着这个分支,我们的未标记数据对象落入到下一个节点,下一个节点是中间节点,我们可以根据这个中间节点所代表的属性测试条件,继续对我们的未标记数据进行检测。对于我们这个节点,它的属性是 mary status,也就是婚姻状态。再根据我们对标的属性对象的婚姻状态取值,Mary 的又可以选择一个合适的分支落入到下一个节点。

此时我们录入的节点是一个叶子结点,其值为 no,它的含义是代表落入到这个节点上的所有数据对象的被标签是 no,所以我们最后得到这个未标记数据对象的类别就为  no。

相关文章
|
3月前
|
存储 网络协议 Linux
Overview of Concepts
Overview of Concepts
44 1
|
3月前
|
机器学习/深度学习 JSON 网络协议
Nostr with NIP-05 Verification Guide
该文章是一个关于Nostr协议中NIP-05验证的指南,解释了NIP-05允许用户将公钥映射到基于DNS的可读标识符上,并提供了如何在个人域名上设置`nostr.json`文件或使用现有NIP-05服务来完成验证的步骤。
26 3
Nostr with NIP-05 Verification Guide
|
设计模式 缓存 监控
译|Design patterns for container-based distributed systems(下)
译|Design patterns for container-based distributed systems(下)
72 0
|
设计模式 分布式计算 Kubernetes
译|Design patterns for container-based distributed systems(上)
译|Design patterns for container-based distributed systems
87 0
|
SQL 编译器 API
Efficiently Compiling Efficient Query Plans for Modern Hardware 论文解读
这应该是SQL查询编译的一篇经典文章了,作者是著名的Thomas Neumann,主要讲解了TUM的HyPer数据库中对于CodeGen的应用。 在morsel-driven那篇paper 中,介绍了HyPer的整个执行框架,会以task为单位处理一个morsel的数据,而执行的处理逻辑(一个pipeline job)就被编译为一个函数。这篇paper则具体讲如何实现动态编译。
442 0
Efficiently Compiling Efficient Query Plans for Modern Hardware 论文解读
Basic Concepts of Genetic Data Analysis
Basic Concepts of Genetic Data Analysis
906 0
|
人工智能 自然语言处理 搜索推荐
|
Java Go Kotlin
For an experienced software engineer, what would be a preferred new programming language to learn?
For an experienced software engineer, what would be a preferred new programming language to learn? Chanaka Fernando, knows Sin...
1114 0