数据挖掘概述-5|学习笔记

简介: 快速学习数据挖掘概述-5

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践数据挖掘概述-5】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15428


数据挖掘概述-5

 

内容介绍

一、前言

二、SPSS Modeler 的发展历程

三、SPSS 产品家族

四、SPSS 的四大优势

五、IBM SPSS Modeler 的三层结构

 

一、前言

数据挖掘课程是实践性很强的课程,需要通过上机练习来加深对于数据挖掘基本概念和基本算法的理解。这门课的实验用的软件工具是SPSS Modeler,对此整合了一些网络教学资源,提供学生进行学习参考。

 

二、SPSS Modeler 的发展历程

1968年,斯坦福三个学生创立了 SPSS。它的确是世界上最早的统计分析软件。

1975年,在芝加哥成了 SPSS 的总部。

1984年推出全球第一个统计分析软件的微机版本。

1998年,SPSS 公司就收购了 ISL 公司及其旗下的 Clementine 产品线。在收购之前主要使用的是 SPSS Statistics 这个统计分析产品,在收购 Clementine 产品线之后就多了分析挖掘的工具。

2009年,SPSS 公司正式被 IBM 收购,到目前为止已经发布了 SPSS Statistics 24.0版本以及 SPSS Modeler 18.1 版本。

 

三、SPSS 产品家族

其实现在的 SPSS 已经是一个产品家族了,并不代表着某一个单独的产品。现在介绍一下可能会使用到的产品。

1、IBM SPSS Statistics

经典统计分析工具,为分析人员提供专业的,统计分析结果,提高决策可信度。

在很长时间以来甚至包括现在一般提起 SPSS 都是会和 Statistics 划上等号的。因为这个产品太值得使用,尤其是在学校,在一些研究机构或一些领域都会用的非常多。SPSS Statistics 主要适用于统计分析的,如果在学校使用过的话大部分都是这个产品。

2、IBM SPSS Modeler

数据挖掘工具,建立预测模型,提供直观的辅助决策信息。

它主要是用于数据挖掘和机器学习的。到目前为止它已经更新到18.1版本了,但在本期课程中主要使用到18.0版本。如果所有的版本并不是最新的,也没有关系,只要是14.1版之后的版本都是可以的。

3、IBM SPSS Collaboration & Deployment Services

在企业日常运营中,降低分析维护成本,最大限度地提高数据分析为企业带来的价值。简称 CNDI,它是为模型提供了模型部署的一个功能,可以在企业的日常运营中自动部署、自动运行或自动更新部署。它其实是模型调度与部署的工具。

4、IBM SPSS Analytics Server

实际上它是 SPSS 产品连接数据源实现分布式计算的产品的一个连接接口。

 

四、SPSS 的四大优势

1、专业性

(1)覆盖整个数据挖掘的生命周期

首先 SPSS Modeller 的功能是覆盖整个数据挖掘的生命周期,从商业理解、数据理解、数据准备、建立模型、经营模型、评估优化及应用模型入手。假如手中有小孩子的教科书的话,实际上会发现这就是 CRISP-DM 跨行业数据挖掘标准流程中的六个步骤。这六个步骤其实是 SPSS Modeller 对应的部分,提供了数据处理、分析探索、模型创建、评估及部署整个数据挖掘流程功能。

(2)丰富、稳健的数据挖掘模型

SPSS Modeller 会提供一系列高级数据挖掘技术算法,当然这也是列出其中的一部分。现在已经更新到18.1版本,就可以做更多的功能了。

①自动模型

它可以根据需要进行自动选择,只要建立一个回归模型就可以选择自动赋值。这样会运行符合条件的所有模型,把这些模型通过一支提成的算法最终结成在一起。

②分类算法

分类算法中是比较丰富的,分类算法是使用决策树(Decision Tree)、神经网络(NeuralNetworks)、逻辑回归(Logistic Regression)支持向量机(Support VectorMachines)、多因素(Cox)回归和广义线性混合模型(GLMM)等技术,根据历史数据进行预测和预报。将自动分类模型同时用于二进制和数值型结果,简化模型创建。

③关联算法

SPSS Modeller 就提供了 Apriori、CARMA 和序列三种算法。在序列算法上主要提供了三种算法。异常节点主要是通过异常分析找出异常点的分析方法。

(3)便捷的参数调整

SPSS Modeller 不需要编程就能够用它进行整个数据挖掘,但实际上 model 会有两个模式,一个为简单模式,另一个为专家模式。简单模式会设置好一个供应参数;建模节点中的专家模式提供用户根据建模模型目标及实际业务数据特征等进行参数调整,在专家模式中可以根据自己的需要选择具体的调整参数来获得更好的一个模型结果。

2、易用性

(1)图形化操作界面

易用性是 SPSS Modeller 与其他数据挖掘及其学习产品的最大区分。SPSS Modeller 支持图形化界面、菜单驱动、拖拉式的操作,它提供了数据源、记录处理、字段处理、图形、模型、输出和导出等7大类结点,建立数据挖掘模型时只需要把相关节点通过鼠标拖拉的方式连接在一起就可以了,整个过程基本不需要任何编程工作,甚至不需要触碰键盘仅需要鼠标就能够完成整个数据挖掘的流程,确实是非常方便。这也是 SPSS Modeller 学习曲线相对来说比较短的原因。

(2)简单、可视化的结果展现方式

SPSS Modeller 除了能够完成建模,还可以提供非常简单的可视化结果。

(3)自动建模算法快速寻找最优模型

SPSS Modeller 提供了自动分类、自动数值、自动聚类,实际上还会有序列的结点并没有把它放上去。自动分类顾名思义就是只要现在面对的是一个分类的目标,客户是否购买某个产品,客户是否违约。对此就可以选择自动分类。在自动分类的节点中实际上可以选择任何符合要求的所有的分类模型,modeller 就可以按照顺序运行这些模型。之后会把所有的结果输入下来。假如在并不是十分熟悉这些算法,也不知道哪个算法比较好的情况下,自动分类就会非常方便。Modeller 会把所有选择的分类器的结果显示出来,会显示每个分类器分别使用了多长时间,它总体的准确性是怎样的。各位可以根据需要选择准确性最高的模型,当然也可以选择一支提成的算法把单个模型的结果结合在一起。关于提成算法的学习或者一支提成的话会在最后一个课时进行详细讲解。自动分类器顾名思义自动数值就是进行回馈分析,modeller 会运行所有适用于目标变量是数值型变量的模型,同样会有效提成最后的分析结果。自动聚类使用的是无监督学习的算法也会运行。

值得注意的是在 modeller 中并不是每个算法只选择一个模型,它实际上是可以运行多个的。因为每个算法中有不同的参数设计,实际上是可以同时运行多个模型,每个模型的参数设置都是不一样的。同时运行多个神经网络,每个网络中的参数都是不一样的。实际上可以运行的模型远远超过其中所谓的九个。Modeller 会把这些模型结果集中在一起,从而快速地帮助寻找最优的模型。这是 SPSS Modeller 很好的一个功能。

(4)丰富清晰的中文帮助文档

除此之外 SPSS Modeller 提供了非常清晰的中文帮助文档,这个功能使用的可能比较多。在后面的实际操作中会介绍怎样可以调出中文帮助文档,同时怎样自动定位现在可能遇到的问题。

(5)多种行业典型数据挖掘应用模板

除了中文帮助文档之外,SPSS Modeller 根据多年使用的经验本身已经把 Modeller 之前所遇到的一些客户以及客户遇到的通用的问题整合成案例。假如现在是在电信行业中使用电信客户的分类,之前没有做过也没有关系。SPSS Modeller 会描述清楚现在需要解决的问题以及怎样去解决这个问题,怎样构建模型等。但最后的模型解读会保存在里面。

SPSS Modeller 提供了多个行业的应用模板,包括银行、电信、零售、超市等等都涵盖其中。在本次的课程中也会详细介绍一些案例。

3、拓展性

(1)多种数据源集成

首先 SPSS Modeller 支持多种数据源的集成,不管传统的数据原是各种数据库,像 DB2,Oracle、MySQL 等等也没有关系。当然更不用说变量文件、文本文件等。SPSS Statistics 这些文件都是可以完全读取的,同时 modeller 又可以提成很多架构数据。

(2)多层面灵活的第三方集成方式

SPSS 集成第三方产品功能,如数据源 Cognos,TM1数据库内的

挖掘功能。

第三方挖掘产品集成 SPSS(功能)

SPSS 的模型可以通过其一个部署的平台C&DS,通过 Webservice方式将 SPSS 算法集成到其它数据挖掘产品中第三方算法对SPSS的扩展(API)。

数据挖掘标准模型 PMML 格式均可导入到 SPSS 中加以应用。

(3)与开源软件R的集成方式在 SPSS Modeller 中可以直接在R节点里面定制写算法,直接通过 SPSS Modeller 运行。现在有一些新的算法很想使用,部门的其他同事可能会对写算法不熟悉,对此可以把R的一些语言通过在 SPSS Modeller 中封装,也就是把R的代码在 SPSS Modeller 中封装成一个节点,在 Modeller 中重新实现。

实际上对于其他的使用者来说只需要打开这个节点,设定之后进行阐述输入进去就可以了,而不需要管具体是怎样写的。R的提成是非常方便的。

4、高性能

SPSS Modeller 提供非常好的高性能数据运算,Modeller 本身可以把握算法,部分的算法可以在数据库中运行,极大的提升了运算效率。另外 SPSS Modeller 本身也提供了服务器的版本,可以使用更好的计算功能。在高性能方面 SPSS Modeller 也提供了一个非常好的支持。


五、IBM SPSS Modeler 的三层结构

1、数据库层

通过IBM SPSS Modeler Server 进行调度,把那些可以通过SQL语句执行的数据操作过程以 SQL 语句的形式导入数据库并在其中进行。

2、服务器端

进行调度;不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程)。

3、客户端

在三层结构下通过 IBM SPSS Modeler Server 进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。

相关文章
|
2月前
|
运维 安全 数据挖掘
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
271 0
|
2月前
|
存储 算法 安全
数据仓库与数据挖掘概述
数据仓库与数据挖掘概述
90 3
|
运维 安全 算法
数据仓库与数据挖掘(3)|学习笔记
快速学习数据仓库与数据挖掘(3)
102 0
数据仓库与数据挖掘(3)|学习笔记
|
监控 数据可视化 搜索推荐
数据仓库与数据挖掘(2)|学习笔记(二)
快速学习数据仓库与数据挖掘(2)
152 0
数据仓库与数据挖掘(2)|学习笔记(二)
|
机器学习/深度学习 传感器 自然语言处理
数据仓库与数据挖掘(2)|学习笔记(一)
快速学习数据仓库与数据挖掘(2)
87 0
数据仓库与数据挖掘(2)|学习笔记(一)
|
数据挖掘 大数据 数据处理
数据仓库与数据挖掘(1)|学习笔记
快速学习数据仓库与数据挖掘(1)
109 0
数据仓库与数据挖掘(1)|学习笔记
|
机器学习/深度学习 数据采集 人工智能
数据挖掘概述-4|学习笔记
快速学习数据挖掘概述-4
135 0
数据挖掘概述-4|学习笔记
|
机器学习/深度学习 运维 算法
数据挖掘概述 -2|学习笔记
快速学习数据挖掘概述 -2
147 0
数据挖掘概述 -2|学习笔记
|
存储 机器学习/深度学习 人工智能
数据挖掘概述 -1|学习笔记
快速学习数据挖掘概述 -1
139 0
数据挖掘概述 -1|学习笔记