开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:数据理解与预处理-4】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15441
数据理解与预处理-4
内容介绍:
一、SPSS Modeler 的主界面
二、操作流程
三、鼠标操作
在第一章的附录一提供的 SPSS Modeler 基本介绍,同时提供了几个英文版的视频来介绍 modeler 的界面。
一、SPSS Modeler 的主界面
到此为止,把SPSS Modeler成功安装在电脑上。正式开始认识不同的工具并使用。
在正式操作前,先介绍一下SPSS Modeler的主界面,可以看到,屏幕上已经把界面分成四部分:
第一部分叫做数据流构建区(有时也会把它叫做跨步),主要是挖掘的工作的主要阵地。通过把一个个节点往上拨同时把它联系在一起就是完整的数据挖掘流程。
事实上,作为现在世界上最优秀的图形化的工具SPSS Modeler。把最外的过程中每个步骤分段成一个个的节点。
读取一个Excel数据,打一个原节点并读取数据源。假如筛选一些数据,有个隐含数据,可能有男性和女性的数据,不想要男性的数据过滤掉,选择节点把性别等于男性的数据丢弃。
介绍中SPSS Modeler已经把常用的图形化的过程中的步骤分装成一个个节点,在第二部分里的节点区找到需要的节点,把它拖拉上去,可以完成所有的节点区。
第三个叫做数据流、结果和模型管理区。正式数据挖掘项目中并不止一个流,一个流的含义是数据挖掘的一个过程。在建模时、结果评估时、探索时会构建一个流。
在一个数据挖掘中有多个流、多个过程。在流中可以选择多个不同的切换。 Modeler有多种输出,一个图形化的、可视化的图形是表格或结果统计分析的输出。所有这样的输出结果在输出中切换。
模型在数据挖掘的过程中多个模型进行比对,每个模型具体怎样点击模型查看切换结果。
最后数据挖掘项目管理区,假如可以看到第一章介绍也是CRISP-DM方法论的六步骤:商业理解、数据理解、数据准备、建模、评估以及部署。
每个阶段过程中,商业理解会有些Excel的材料,有些文档;在数据理解中会有数据统计的报告,有一个数据流,做一个数据探索;在建模过程中有建立模型。
所有这样的资料Modeler都可以通过数据挖掘项目管理区进行管理,可以把文档拖拉进来。
二、操作流程
开始正式进入一个操作流程,切换到Modeler的主界面里,和介绍是一致的,点击打开Modeler里内置的一个demo。
打开它会默认选择最近一次打开的路径,demo的一个路径其实上是modeler的安装位置18.0。18.1能打开18.0的Demo文件夹。
有个快速的方式,点击小小的、金黄色的方块,里面是最近的一些模。打开演示的文件夹,这是相同的(演示文件夹是demo文件夹)。
安装目录是18.0的。
打开stream(流),modeler的demo所有流的模型都在stream这里。打开drngream.str的文件,(Modeler的文件结尾都是以str结尾)str是stream缩写。
打开了demo的文件,它建了两个模型:一个是神经网络模型,一个是c5.0。
先把流的数据挖掘过程先完成,看一下modeler怎样操作?
首先,建立一个数据挖掘模型(第一个部分有材料)读取数据。数据是变量文件的一个数据,需要找到链接点,找到一个变量文件双击(可以拖动节点)。
接下来输入路径,选择路径文件在哪,也可以直接输入绝对路径。这里直接复制。
输入路径后刷新一下,拿到数据预览数据具体模样。
介绍案例背景是一个医学的研究机构研究病人对同一种疾病最佳用药是什么?数据可以看到病人的年龄、性别、血压(高中低)、胆固醇、血液中钠钾离子的浓度、体温也对应着最佳用药。
对于每个不同的病人做医学研究的一个预测,进入导出节点,根据案例认为血液中的钠、钾离子浓度都很重要,但比值更重要。生成一个新的字段是钠、钾离子的浓度之比。先用导出节点(钠、钾离子浓度)输入公式钠离子浓度除以钾离子浓度,检查错误,观察能不能生成新的数据。
钠、钾离子浓度之比可能在血液中浓度没太大作用,把节点自动过滤掉,刷新一下,把节点双击时再双击一下(上个节点选择该节点)会自动连接。
进入未行节点,告诉modeler用什么预测什么。(节点后面和大家详细介绍)大概和思路完成步骤就可以。把最佳用药做目标,其他做输入(拿其他变量来预测该变量是怎样的)。
开始建模(建模用的是c5.0的节点),找到建模节点。演示不改变参数直接点击运行。跳出一个金黄色的模型块是模型结果。
双击打开模型结果,c5.0决策数会生成一系列的决策规则,
决策规则判断会输入预测变量的重要性,决策数的一个结果是比较简洁的。输出结果再输入表格节点,在模型结果后面输出查监测结果。
原始数据集里Y(预测用药)和我通过模型预测出来的结果准确率还是可以的(没有训练测试题)。
操作是不严谨的,把过程做完,没有做药的编程。在这个过程中读取数据,生成新的变量或遇到无效的变量,告诉modeler哪个是预测目标、应变量、自变量。
建立一个C5.0的模型,再把模型复制出来,只用六个节点就把模型做出来。
介绍一下操作,刚刚介绍完跨步,下面介绍节点区,modeler已经把不同类型的节点分门别类完。源节点包含各数据源类型,通过该节点可以读取不同类型的数据,主要有spss,excel,text。
记录节点包含对记录进行处理的各种方法(选择、排序)。字段选择包含对字段进行处理的各种方法(定义类型)。未行节点设定数据角色是什么工序,把无效的一些字段给供应掉,都在这里找到。
图形实际上是可视化的结果,有散点图,直方图,网络图等等,modeler里肯定不止这些。长度特殊化modeler把它单独列出来,一个线图、平行图、斜线图怎么办?图形板会根据选择的数据自动推荐。
modeler里内置的图形较多。一些地图格式化的东西内容也在这里,
modeler里大概有31种建模算法。
modeler把神经网络、c5.0、logistic放到回馈,监督方法可能会较好。
有几个叫做自动分配器、自动数值还有自动聚配,自动节点在自动分配器里modeler会把分类的模型算法都列在这里,试过运行多个模型算法,哪个最好就选哪个,也可以使用组合算法模成集成学习的方式把多个模型结果集成在一起,同样的技能数值分区位,不相异的自动结点建模。
输出和导出比较重要。输出是模型评估的一些节点,把输出成一个表格形成矩阵,通过分析(实际上就是评估模型,是模型的主旋律)。再试一下模型会有数据审核。
另外一个是导出,输出把结果输出到屏幕上面,评估结果。导出就是把最后的数据导出成一个文件,可能导回到数据库里、导回到一个平面文件、导成Excel,把结果导出以文件形式是导出。
值得注意的地方是收藏夹。它是经常使用到的一些节点,根据个人需要有一个编辑功能,右键在空白处有管理权限,编辑打开它,收藏夹里有编辑所选项,根据需要把经常使用到一些算法放进来。
举例要做一个FM汇总,找到FM汇总把它放进来,三点图也是如此。做一个节点确定。收藏夹里已经有刚刚选择的节点了,线的含义是根据不同的节点类型把它分割开来,另外选项版其他的项目再打开一个管理分线板。
除了这些分类,我再找一个喜欢的分类,首先,添加一个新项目叫做我喜欢。把最后节点第二文件节点,硬化节点、填充节点、出节点放到前点击确定,也可以看到我喜欢的节点。
进一步对它进行编辑,我喜欢放到最前面。四个案例就调整顺序,大家根据需要调整。
我喜欢里再做一个分类。点击找到博喜,点击自选项并创建。假如把它叫做数据源,另外再数据操作,可能把等一零化填空导出放进来,点击确定再确定,我喜欢选项下面已经有全部。
再把自己按照需要来做一个分类。选线板是需要去调整的,感觉探望回顾缺省值(原生的一个缺省值)。看到流管理区,假如建立多个模型,新的模型添加到文件夹里。根据切换的需要切换。
之前模型里,刚刚有多个输出,预览节点是一个输出来的,会做表格给大家做一些分析。把历史的输出结果保存下来,双击打开它,输出结果不需要重新再运行一遍,直接都可以打开。
使用曾经申请的一个模型双击它,不一定要在界面上使用。这有一个空的流,用的模型直接刷新它,它就去空白的模里。另外模型管理可以看到项目管理区,根据需要把它拖到这里来。
找到放在内容的目录,有业务背景介绍打开后介绍安装一个药物治疗的研究背景(商业理解),结果报告放在评估里,区域放在建模的区长。
根据需要把东西放在不同的地方,结果是可以保存下来的,项目里面有哪些文件存放在哪个地方,把这个东西给保存CPG的项目,保存在桌面上面改二,保存下来。
结果是可以打开的。直接双击业务背景介绍,根据它的后缀名直接打开它,项目管理非常方便,可以按照一个项目的步骤一步一步的分割来,每个步骤中包括什么内容、文档、以下文档、评估报告,它都可以分解,尤其是在项目中有多个同事协同合作时更方便。
刚刚是从demo文件夹去打开它的,假如modeler里的原始编码文件夹的视频文件默认是不能被写入的。有时想拿demo文件来做一个参考或作为一个示例,但直接在上面做了一些其他操作的保存,demo文件变得面目全非,下一次就不能使用。
demo文件默认是不能被写入的,假如在demo文件上做一些操作,必须把它运存在其他地方看,现在就可以保存了,(不能保存在面试的文件夹里)。
三、鼠标操作
介绍一下鼠标的基本操作,鼠标左键选中双击打开。假如删除两个节点间的连接把鼠标按照连接来右击鼠标删除连接。重新建一个连接在节点里双击自动连接。
另外,右键选择需要启始的节点,目标节点右键来连接,假如没有中间没有最方便的方式。
有总键放进来,按住中键可以拖过来,鼠标松开是对方的,因为老师中间是不能用的,但是最方便的方式:用中键去连接。
modeler的界面基本操作就先到这里,在下一节中会给大家介绍活动积分的一个小技巧。