【机器学习】决策树算法

简介: 在前一期介绍搭建结合机器学习的CI/CD管道时,无意中提到了算法分类。在受监督学习的分类中,有一个既适用于回归又适用于分类的算法,即我们今天要介绍的决策树算法(CART, Classification and Regression Tree)。

在前一期介绍搭建结合机器学习的CI/CD管道时,无意中提到了算法分类。在受监督学习的分类中,有一个既适用于回归又适用于分类的算法,即我们今天要介绍的决策树算法(CART, Classification and Regression Tree)。1
先说一下这两类算法索要解决的问题,回归算法指的是当给出一个点集D,用一个函数去拟合这个点集,并且使得点集与拟合函数间的误差最小,从而近似模拟出应变量与自变量之间的关系。常用的回归算法有线性回归和LASSO回归,前者通俗易懂,较易实现;后者适用范围更广,对数据要求更低,容错更强。(以下是一元线性回归拟合。)
2
分类算法顾名思义对于预测结果没有数值上的偏差,只有对错之分。严格意义上说决策树更适用于分类算法,对于回归的预测只能给出数值的可信范围。
既然叫做决策"树",那一定是由一个主干节点和多个分叉节点及叶节点组成的,每个分叉都是一个决策,每一片叶子都是一个最终分类或取值(范围),
3
相较于其他回归算法,决策树的优点在于:

  • 便于理解、编译和展示(小编曾研究LASSO回归算法,简直就是天书);
  • 可以对变量进行人为筛查和功能筛选;
  • 不需要特别的数据准备,对于原始数据的排序、完整性要求不高。

    决策树算法的缺点在于:

  • 算法容易过拟合(Overfitting),往往由于为匹配所有样本而设置过多决策点,其他监督学习算法也会有类似问题,只是决策树算法更为敏感,算法生成后往往需要“剪枝(Pruning)”;
    4
  • 数据一旦有微小偏差就会影响算法稳定性,对于偏差数据往往需要再建立补偿算法的偏差树以保证原树的稳定性。

基于上述特性,决策树算法最常被用来预测一些是非问题。例如根据一个人的家庭背景、收入情况判断偿还银行贷款的能力;抑或根据性别、年龄、身高、体重判断他能否从某次灾难中幸存。
之前说了决策树算法既适用于回归问题又适用于分类问题,回归问题中自变量是连续的,因此回归(决策)树根据训练结果会返回平均预测值
5
分类(决策)树不会考虑数值的近似关系,而将数值单纯地理解为符号,只有一模一样的数才会合并到同一片叶子。
6
在决策树算法的设计中,使用越少的决策点越能提高算法的效率,举个简单的例子:有以下五个区间,如何用最少的决策点将五个叶子节点给区分开来。(动脑时间开始。5,4,3,2,1...)
7
以下公布答案,我们从X1变量出发,通过两层三个决策点的判断就得出了全部5个叶子节点,您答对了么?
8
关注公众号“达摩院首座”,一起开源一起嗨!

相关文章
|
15天前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
44 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
23天前
|
机器学习/深度学习 算法 数据挖掘
决策树算法大揭秘:Python让你秒懂分支逻辑,精准分类不再难
【9月更文挑战第12天】决策树算法作为机器学习领域的一颗明珠,凭借其直观易懂和强大的解释能力,在分类与回归任务中表现出色。相比传统统计方法,决策树通过简单的分支逻辑实现了数据的精准分类。本文将借助Python和scikit-learn库,以鸢尾花数据集为例,展示如何使用决策树进行分类,并探讨其优势与局限。通过构建一系列条件判断,决策树不仅模拟了人类决策过程,还确保了结果的可追溯性和可解释性。无论您是新手还是专家,都能轻松上手,享受机器学习的乐趣。
32 9
|
16天前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
20 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
1月前
|
机器学习/深度学习 数据采集 算法
数据挖掘和机器学习算法
数据挖掘和机器学习算法
|
1月前
|
机器学习/深度学习 数据采集 存储
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
165 1
|
2月前
|
机器学习/深度学习 存储 算法
图解最常用的 10 个机器学习算法!
图解最常用的 10 个机器学习算法!
|
5月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
210 14
|
5月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
97 1
|
5月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
5月前
|
机器学习/深度学习 数据采集 算法
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
解码癌症预测的密码:可解释性机器学习算法SHAP揭示XGBoost模型的预测机制
256 0
下一篇
无影云桌面