开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):基本概念】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/921/detail/15640
基本概念
在分类这一章中,我们向大家介绍分类的基本概念,决策树分类器、贝叶斯分类器、集成、不平衡分类、分类模型的评估与选择,分类的定义。
我们首先来看一下在分类任务中使用到的。在分类中的每一个数据对象可以用一个元组 XY 来代表,其中 X 指的是这个数据对象的属性,用来描述这个数据对象,Y 指的是这个数据对象的类标签,指明这个数据对象所属的类。
分配的任务就是基于给定的有标签的数据学习一个分类模型,通过这个分类模型,我们可以把一组属性X映射到一个特定的类别 Y 上。需要注意的是这里的类别 Y 是提前设定好的。
比如我们对顾客进行分类,把顾客分为高端用户、终端用户和一般用户。这里的高端用户、终端用户和一般用户是事先设定好的。
分类是属于有监督学习,它主要包含两个阶段,第一个阶段就使用有标记的数据对我们的分类器进行训练,得到训练好的分类器。第二个阶段是用训练好的分类器对没有标记的数据进行分类预测,预测它的类。大家可以看一下在PPT中我们使用到的有标记的数据,有标记的数据它有一个 class table,那么使用红色的字符表示。在训练的过程中,我们的分类器是在类标签的指导下进行学习,所以我们的分类是有监督的学习,对于分类它也是属于预测问题。
和分类非常类似的一类任务,我们把它称之为叫做数值预测,那分类和数字预测任务有什么区别呢?我们来了解一下。
对于分类我们刚才介绍过他主要是使用给定的有标签的数据去训练构造一个分类模型,基于分类模型对没有标记的数据进行预测,这里注意我们的预测属性是有类别的,也就是我们的类别的属性,此外我们的这些类别还是提前设定好的,比如我们在刚才讲的顾客类别是离散的,而且这个类别是提前设定好的数值预测,和分类非常类似,它也是基于给定的数据,训练数值预测模型,然后再利用数值预测模型对给定的属性进行预测,但是需要注意的是在数值预测任务中,我们所预测的特定属性它是连续类型的,比如房价预测,我们可以根据房子的面积大小、楼层来预测房子的价格,房子的价格这个属性它是一个连续类型的属性,那这一类问题它就是属于数值预测问题,我们再来看一下分类的过程。分类的过程主要包含两个阶段,第一个阶段是模型的构建,第二个阶段是模型的验证和检测。
首先我们来看一下模型的构建。在模型的构建中,我们使用的有标记的数据,把它称之为叫做训练集,就是 training set。我们利用春运赛特可以根据许多分类器模型来训练分类器,那常用的分类器模型包含决策树,基于规则的分类器,一些数学公式甚至其他的形式。
第二个阶段,模型的验证和检测。在模型的验证和检测中,我们使用的有标记的数据称之为叫做 test set 测试集,测试集是独立于我们的训练集的。模型的检测主要是用来评估模型的准确率。
准确率指的是预测对象中预测正确的数目占全体数据对象的比例。模型的验证主要是利用我们的测试及对比多个分类器,选择合适的分类器。
我们再来了解一下在分类中经常使用到的一些技术。对于分类技术,我们把它划分为两大类,一类是基础的分类器,一类是集成分类器。对于基础的分类器主要包含决策树模型,基于规则的方法,基于深度学习和神经网络的分类模型,那用贝叶斯方法和贝叶斯信念网络以及支持向量机等方法。集成分类器主要是在基础分类器的基础上,通过基层策略将多个分类器集成,构建新的分类器。
集成分类器的技术主要包含提升、袋装、随机申领等。