开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:分类预测:分类算法概念】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15430
分类预测:分类算法概念
内容管理:
一、 分类算法概念
二、 主要分类算法
一、分类算法概念
这个算法模型,我们现在学习数据挖掘里面最重要的算法分类法,分类算法,大家回忆一下,我们在第一讲里面说过,按照样本视频里面有没有特殊的疑点,我们把它叫做 y,有 y的话就是有监督的数据挖掘算法,没有小y就是无监督的数据挖掘算法,如果 y的值取是不行的话,就是分类,如果 y的值取数字形的话值得回归。
我们再来看一下数据挖掘用到的数据的格式数据,我们把首先数据用X,然后类的标记分特别的一列,我们用 y表示,然后我们围绕数据挖掘算法的训练和测试,我们将数据和标签以及X和y都分成两份,一份叫训练值,一份叫测试值。这个,是我们在第一讲里面讲过的一些知识,我们来回忆一下。那么我们再来思考一下,把数据挖掘用到的数据分成 X和y的好处是什么?
大家看一下,如果我们用决策函数的角度来思考,我们是希望看到每一条样本,它的y应该取值是多少。相当于就是在 X上面有一个函数,一个作用的函数,F函数作用在 X上面,然后得到y的值,也就是通过大X数据的训练学习,然后找到 X和 y 的关系。
或者我们用条件概率分布函数来,也即给定的X,我们来求y的概率,这个P的概率公式,概率的表示方法大家还记得吗?这根竖线它的左边和右边,我们读的时候一般这样读P问X,然后求Y的概率,把它给定X情况下Y的概率。
1、分类的意义
分类它的意义,分类我们知道是最重要的,数字化点和积极区分分类的目的是根据数据集的特点来构造一个分类函数或者分类模型,也叫做分类器,也就是我们在前一页PPT上讲到的,我们给定了属性数据加X,我们要找一个分类函数,或者叫分类器,或者分类模型。然后,找到他和y的关系,这是分类算法要做的事情,那么他要做这样一个分类模型,最终的目的,最终的目的是要把位置类别的样本映射到指定类别中的某一个。
这句话很关键,也就是说我们得到模型以后并没有结束,我们得到模型以后,我们后面更大的作用和价值在于。在那些样本中,类别未知的样本,通过训练得到的模型,也就是这个分类函数,分类模型,分类器,然后来判断这个位置类的样本,它应该属于哪一类。我们看这张图表,我们数据分成训练集和测试,这篇数据的话,我们看它的字段属性,我们就抽象一下,这个大家要有抽象的一种思维模式,然后我们利用训练数据,然后进行归纳学习。
通过这个学习算法,我们在这一部分要学一些分类算法,然后从数据里归纳学习,然后得到模型,也就得到分类函数、分类器或者是分类模型。那经过评估如果比较正确的话,我们就可以应用模型。也就是说,分类模型算法,最终的目的价值就在于应用这个模型,然后来推断那些样本中类别未知的样本。它应该属于哪一类,这就是分类的意义。
2、分类的目的
下面我们再看分类的目的,分类的目的有这样几点,第一点还要寻找影响某一重要变量的因素。那么如果说我们是要看客户有没有欺诈,那么这个欺诈和欺诈就是最重要的变量,那么影响它的因素是什么?那有可能就是,客户的收入。客户的借款的,什么预期不还等等。第二个目的是要了解某一族群的特征,某一族群体的某一类特征,我们把样本分成不同的类给你,那么每一类就有很多特征。
比如说,那些购买房子的客户,他的特征是他的年龄特征,收入特征,家庭人口等等,那些购买房子的,他的特征是,这就是第二个购置,第三个目的就更具体了,是在实际应用当中,在建立一些分类规则,然后也指导我们的管理和决策。比如说我们进行市场营销的时候,做营销策略,别做市场细分那么。正常细分的话有几个类别,那么,我们这样一个产品,那适合做哪一个事情,把它分到哪一个类上去,然后对银行它的核卡额度,核卡额度的话,就是比如说低中高,那某一个客户给他的核卡额度,到底是低中高哪一类?
我们通过分类模型来判断,通过客户的各种属性数据判断他应该属于哪一类,那么医疗诊断用的就更多了,比如说能判断下,那么这个通过他的化验的各种指标,通过模型来判断。它有没有SARS,有没有这个症状?所以在音频里面用计算机的数据挖掘模型去写模型特别多。
3、分类的流程
来看看分类的流程分类,一般有三个步骤,第一步骤,建立模型,那么建立模型。
我们以决策树为例,用决策树建立了这样一个决策树模型,第二步骤是评估模型。