白话说大数据算法C4.5

简介: 现在,如果天气晴朗(Sunny)或多雨(Rainy),我们要么去打网球(Play tennis),要么待在家里(Stay in)。但是,如果外面多风(Windy),我会检查我拥有多少钱。如果我很有钱(Rich),我会去购物(Shopping),或者去看电影(Cinema)。

  C4.5算法在数据挖掘中用作决策树分类器,可用于基于特定数据样本(单变量或多变量预示变量)生成决策。

  因此,在我们直接深入研究C4.5之前,让我们先讨论一下决策树以及它们如何用作分类器。

  决策树

30de2729aa22d6b82e55d19f4717aa81

  决策树如上图所示。假设您想计划今天的活动,但您面临一些可能影响最终决定的不同条件。

  在上图中,我们注意到影响决策的主要因素之一是父母到访(Parent Visiting)。如果确实如此,那么我们会做出快速决定--选择去电影院。如果他们不来怎么办?

  这开辟了一系列其他可能。现在,如果天气晴朗(Sunny)或多雨(Rainy),我们要么去打网球(Play tennis),要么待在家里(Stay in)。但是,如果外面多风(Windy),我会检查我拥有多少钱。如果我很有钱(Rich),我会去购物(Shopping),或者去看电影(Cinema)。

  树根始终是具有成本函数最小值的变量。在这个例子中,父母访问的概率是50%,无须多虑,一半一半是很容易的决策。但是如果选择天气作为“根”呢?那么将有33.33%的可能性发生某种结果,这可能会增加我们做出错误决定的机会,因为需要考虑更多的测试用例。

  如果我们通过信息增益和熵的概念,那将更容易理解。

  信息增益

  如果您已经获得了加班信息,这有助于您准确预测某些事情是否会发生,那么您预测的事情信息就不是新信息。但是,如果情况有变并且出现了意想不到的结果,那么它就算是有用和必要的信息。

  类似的是信息增益的概念。

  您对某个主题了解得越多,您就越不了解它的新信息。更简洁:如果你知道一个事件是非常可能的,那么当事件发生时就不足为奇了,也就是说,它提供的实际情况信息很少。

  从上面的陈述中我们可以表明,获得的信息量与事件发生的概率成反比。我们还可以说随着熵增加,信息增益减少。这是因为熵指的是事件的概率。

  假设我们正在看抛硬币。猜中双面平整的硬币任何一面的概率为50%。如果硬币是不平整的,那么获得某面(头或尾部)的概率是1.00,然后我们说熵是最小的,因为目前没有任何类型的试验可以预测我们硬币投掷的结果。

29be4513ab9768984c3f548a4bb5eb4d

  在下面的绘制图中,我们注意到由于特定事件的最大不确定性而获得的最大信息量是当每个事件的概率相等时。这里,p=q=0.5

  E=系统事件的熵

  p=头部作为结果的概率

  q=尾部作为结果的概率

de5ef6792800bcbe011a29ab84a8519b

  在决策树的情况下,必须使节点对齐,所以熵随着向下分裂而减小。这基本上意味着更多的分裂是适当的,做出明确的决定变得更容易。

  因此,我们针对每种分裂可能性检查每个节点。信息增益比是观测值与观测总数之比(m/N=p)和(n/N=q),其中m+n=N且p+q=1。在分裂之后,如果下一个节点的熵小于分裂之前的熵,并且如果该值与用于分裂的所有可能测试用例相比最小,则该节点被分裂成其最纯的成分。

  在我们的例子中,我们发现与其他选项相比,父母访问以更大的比例减少熵。因此,我们选择这个选项。

  修剪

  我们原始示例中的决策树非常简单,但是当数据集很大并且需要考虑更多变量时,情况并非如此。这是需要修剪的地方。修剪是指,在我们的决策树中删除那些我们认为对我们的决策过程没有显着贡献的分支。

  让我们假设我们的示例数据有一个名为“车辆”的变量,当它具有值“富裕”(Rich)时,它与条件“钱”(Money)相关或是其衍生。现在,如果车辆可用,我们将通过汽车购物(shopping),但如果没有,我们可以通过任何其他交通方式购物。但最终我们去购物。

  这意味着“车辆”变量没有多大意义,可以在构造决策树时排除。

  修剪的概念使我们能够避免过度拟合回归或分类模型,以便对于少量数据样本,在生成模型时摒除测量误差。

  虚拟代码

  C4.5优于其他决策树系统的优势:

  1.该算法固有地采用单通道修剪过程来减轻过度拟合。

  2.它可以与离散数据和连续数据一起使用

  3.C4.5可以很好地处理不完整数据的问题

  4.也许C4.5并不是最好的算法,但在某些情况下确实有用。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
数据采集 机器学习/深度学习 人工智能
决策树C4.5算法的技术深度剖析、实战解读
决策树C4.5算法的技术深度剖析、实战解读
219 0
|
4月前
|
算法 数据挖掘 Python
【数据挖掘】决策树中C4.5与CART算法讲解及决策树应用iris数据集实战(图文解释 附源码)
【数据挖掘】决策树中C4.5与CART算法讲解及决策树应用iris数据集实战(图文解释 附源码)
50 0
|
机器学习/深度学习 存储 算法
基于Django 框架搭建算法学习系统,包含KNN、ID3、C4.5、SVM、朴素贝叶斯、BP神经网络 毕业设计附完整代码
基于Django 框架搭建算法学习系统,包含KNN、ID3、C4.5、SVM、朴素贝叶斯、BP神经网络 毕业设计附完整代码
158 0
基于Django 框架搭建算法学习系统,包含KNN、ID3、C4.5、SVM、朴素贝叶斯、BP神经网络 毕业设计附完整代码
|
算法
决策树ID3算法和C4.5算法实战
决策树ID3算法和C4.5算法实战
112 0
决策树ID3算法和C4.5算法实战
|
机器学习/深度学习 算法
【机器学习-决策树模块-基础算法-2)C4.5算法】
【机器学习-决策树模块-基础算法-2)C4.5算法】
101 0
【机器学习-决策树模块-基础算法-2)C4.5算法】
|
机器学习/深度学习 存储 算法
深入了解机器学习决策树模型——C4.5算法
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 上一篇文章当中介绍了一种最简单构造决策树的方法——ID3算法,也就是每次选择一个特征进行拆分数据。
深入了解机器学习决策树模型——C4.5算法
|
机器学习/深度学习 算法 数据挖掘
数据挖掘十大经典算法——C4.5
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法
1778 0
|
算法 数据挖掘 机器学习/深度学习
|
机器学习/深度学习 算法 数据挖掘
《机器学习实战》基于信息论的三种决策树算法(ID3,C4.5,CART)
=====================================================================   《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法     github 源码同步:https://github.
1455 0

热门文章

最新文章