分类预测:分类算法概念|学习笔记(一)

简介: 快速学习分类预测:分类算法概念

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践分类预测:分类算法概念】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15430


分类预测:分类算法概念

 

内容管理:

一、 分类算法概念

二、 主要分类算法

 

一、分类算法概念

这个算法模型,我们现在学习数据挖掘里面最重要的算法分类法,分类算法,大家回忆一下,我们在第一讲里面说过,按照样本视频里面有没有特殊的疑点,我们把它叫做 y,有 y的话就是有监督的数据挖掘算法,没有小y就是无监督的数据挖掘算法,如果 y的值取是不行的话,就是分类,如果 y的值取数字形的话值得回归。

image.png我们再来看一下数据挖掘用到的数据的格式数据,我们把首先数据用X,然后类的标记分特别的一列,我们用 y表示,然后我们围绕数据挖掘算法的训练和测试,我们将数据和标签以及X和y都分成两份,一份叫训练值,一份叫测试值。这个,是我们在第一讲里面讲过的一些知识,我们来回忆一下。那么我们再来思考一下,把数据挖掘用到的数据分成 X和y的好处是什么?

大家看一下,如果我们用决策函数的角度来思考,我们是希望看到每一条样本,它的y应该取值是多少。相当于就是在 X上面有一个函数,一个作用的函数,F函数作用在 X上面,然后得到y的值,也就是通过大X数据的训练学习,然后找到 X和 y 的关系。

或者我们用条件概率分布函数来,也即给定的X,我们来求y的概率,这个P的概率公式,概率的表示方法大家还记得吗?这根竖线它的左边和右边,我们读的时候一般这样读P问X,然后求Y的概率,把它给定X情况下Y的概率。

1、分类的意义

image.png分类它的意义,分类我们知道是最重要的,数字化点和积极区分分类的目的是根据数据集的特点来构造一个分类函数或者分类模型,也叫做分类器,也就是我们在前一页PPT上讲到的,我们给定了属性数据加X,我们要找一个分类函数,或者叫分类器,或者分类模型。然后,找到他和y的关系,这是分类算法要做的事情,那么他要做这样一个分类模型,最终的目的,最终的目的是要把位置类别的样本映射到指定类别中的某一个。

这句话很关键,也就是说我们得到模型以后并没有结束,我们得到模型以后,我们后面更大的作用和价值在于。在那些样本中,类别未知的样本,通过训练得到的模型,也就是这个分类函数,分类模型,分类器,然后来判断这个位置类的样本,它应该属于哪一类。我们看这张图表,我们数据分成训练集和测试,这篇数据的话,我们看它的字段属性,我们就抽象一下,这个大家要有抽象的一种思维模式,然后我们利用训练数据,然后进行归纳学习。

通过这个学习算法,我们在这一部分要学一些分类算法,然后从数据里归纳学习,然后得到模型,也就得到分类函数、分类器或者是分类模型。那经过评估如果比较正确的话,我们就可以应用模型。也就是说,分类模型算法,最终的目的价值就在于应用这个模型,然后来推断那些样本中类别未知的样本。它应该属于哪一类,这就是分类的意义。

2、分类的目的

下面我们再看分类的目的,分类的目的有这样几点,第一点还要寻找影响某一重要变量的因素。那么如果说我们是要看客户有没有欺诈,那么这个欺诈和欺诈就是最重要的变量,那么影响它的因素是什么?那有可能就是,客户的收入。客户的借款的,什么预期不还等等。第二个目的是要了解某一族群的特征,某一族群体的某一类特征,我们把样本分成不同的类给你,那么每一类就有很多特征。

比如说,那些购买房子的客户,他的特征是他的年龄特征,收入特征,家庭人口等等,那些购买房子的,他的特征是,这就是第二个购置,第三个目的就更具体了,是在实际应用当中,在建立一些分类规则,然后也指导我们的管理和决策。比如说我们进行市场营销的时候,做营销策略,别做市场细分那么。正常细分的话有几个类别,那么,我们这样一个产品,那适合做哪一个事情,把它分到哪一个类上去,然后对银行它的核卡额度,核卡额度的话,就是比如说低中高,那某一个客户给他的核卡额度,到底是低中高哪一类?

我们通过分类模型来判断,通过客户的各种属性数据判断他应该属于哪一类,那么医疗诊断用的就更多了,比如说能判断下,那么这个通过他的化验的各种指标,通过模型来判断。它有没有SARS,有没有这个症状?所以在音频里面用计算机的数据挖掘模型去写模型特别多。

3、分类的流程

image.png来看看分类的流程分类,一般有三个步骤,第一步骤,建立模型,那么建立模型。

我们以决策树为例,用决策树建立了这样一个决策树模型,第二步骤是评估模型。

image.png

相关文章
|
1月前
|
存储 算法
数据结构与算法学习二二:图的学习、图的概念、图的深度和广度优先遍历
这篇文章详细介绍了图的概念、表示方式以及深度优先遍历和广度优先遍历的算法实现。
51 1
数据结构与算法学习二二:图的学习、图的概念、图的深度和广度优先遍历
|
2月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
90 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
1月前
|
存储 缓存 分布式计算
数据结构与算法学习一:学习前的准备,数据结构的分类,数据结构与算法的关系,实际编程中遇到的问题,几个经典算法问题
这篇文章是关于数据结构与算法的学习指南,涵盖了数据结构的分类、数据结构与算法的关系、实际编程中遇到的问题以及几个经典的算法面试题。
29 0
数据结构与算法学习一:学习前的准备,数据结构的分类,数据结构与算法的关系,实际编程中遇到的问题,几个经典算法问题
|
5月前
|
存储 算法 Linux
【数据结构和算法】---二叉树(1)--树概念及结构
【数据结构和算法】---二叉树(1)--树概念及结构
50 0
|
30天前
|
移动开发 算法 前端开发
前端常用算法全解:特征梳理、复杂度比较、分类解读与示例展示
前端常用算法全解:特征梳理、复杂度比较、分类解读与示例展示
21 0
|
2月前
|
机器学习/深度学习 算法 数据挖掘
决策树算法大揭秘:Python让你秒懂分支逻辑,精准分类不再难
【9月更文挑战第12天】决策树算法作为机器学习领域的一颗明珠,凭借其直观易懂和强大的解释能力,在分类与回归任务中表现出色。相比传统统计方法,决策树通过简单的分支逻辑实现了数据的精准分类。本文将借助Python和scikit-learn库,以鸢尾花数据集为例,展示如何使用决策树进行分类,并探讨其优势与局限。通过构建一系列条件判断,决策树不仅模拟了人类决策过程,还确保了结果的可追溯性和可解释性。无论您是新手还是专家,都能轻松上手,享受机器学习的乐趣。
47 9
|
3月前
|
数据采集 机器学习/深度学习 算法
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
|
3月前
|
机器学习/深度学习 算法
【机器学习】解释对偶的概念及SVM中的对偶算法?(面试回答)
解释了对偶的概念,指出对偶性在优化问题中的重要性,尤其是在强对偶性成立时可以提供主问题的最优下界,并且详细阐述了支持向量机(SVM)中对偶算法的应用,包括如何将原始的最大间隔优化问题转换为对偶问题来求解。
86 2
|
3月前
|
算法 5G Windows
OFDM系统中的信号检测算法分类和详解
参考文献 [1]周健, 张冬. MIMO-OFDM系统中的信号检测算法(I)[J]. 南京工程学院学报(自然科学版), 2010. [2]王华龙.MIMO-OFDM系统传统信号检测算法[J].科技创新与应用,2016(23):63.
76 4
|
3月前
|
机器学习/深度学习 算法 数据挖掘
决策树算法大揭秘:Python让你秒懂分支逻辑,精准分类不再难
【8月更文挑战第2天】决策树算法以其直观性和解释性在机器学习领域中独具魅力,尤其擅长处理非线性关系。相较于复杂模型,决策树通过简单的分支逻辑实现数据分类,易于理解和应用。本示例通过Python的scikit-learn库演示了使用决策树对鸢尾花数据集进行分类的过程,并计算了预测准确性。虽然决策树优势明显,但也存在过拟合等问题。即便如此,无论是初学者还是专家都能借助决策树的力量提升数据分析能力。
44 4