《数据挖掘:实用案例分析》——3.3 常用的建模工具-阿里云开发者社区

开发者社区> 华章计算机> 正文

《数据挖掘:实用案例分析》——3.3 常用的建模工具

简介: 本节书摘来自华章计算机《数据挖掘:实用案例分析》一书中的第3章,第3.3节,作者 张良均 陈俊德 刘名军 陈荣,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
+关注继续查看

3.3 常用的建模工具

  数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断地磨合才能取得成功。因此我们在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点:

image

  下面简单介绍几种常用的数据挖掘建模工具:

  1.Enterprise Miner

  Enterprise Miner(简称EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件。它的运行方式是通过在一个工作空间(Workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程(Workflow),便可以得到相应的结果。

  2.Clementine

  SPSS的核心挖掘产品Clementine提供了一个可视化的快速建立模型的环境,作为业内领先的数据挖掘平台,允许企业利用业务专业技能快速开发预测模型,并迅速部署提升决策水平。Clementine能够帮助企业达成目标:

image

  Clementine虽然在数据挖掘算法上做得很好,但是没有充分考虑综合各种预测方法来优化预测结果,另外就是其可测量性较差。

  3.Intelligent Miner

  IBM的Intelligent Miner正在竞争数据挖掘工具市场的领导地位,竞争力主要集中在资料探勘上。

  4.SQL Server

  Microsoft的SQL Server中集成了数据挖掘工具,借助SQL Server的数据库管理功能,用户可以实现数据挖掘建模。在SQL Server 2008中提供了决策树算法、聚类分析算法、Naive Bayes算法、关联规则算法、时序算法、神经网络算法、线性回归算法等9种常用的数据挖掘算法。但是其预测建模的实现是基于SQL Server平台的,而平台移植性相对较差,也没有考虑综合各种预测方法来优化预测结果。

  5.MATLAB

  MATLAB(Matrix Laboratory,矩阵实验室)是美国Mathworks公司开发的应用软件,具备强大的科学及工程计算能力。它不但具有以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。它的应用领域十分广泛,主要包括:数学计算和分析、自动控制、系统仿真、数学信号处理、图形图像分析、数理统计、人功智能、虚拟现实技术、金融系统等。

  6.WEKA

  WEKA(Waikato Environment for Knowledge Analysis)是一款知名度较高的开源机器学习和数据挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时,WEKA也为普通用户提供了图形化界面,称为WEKA Knowledge Flow Environment和WEKA Explorer,可以实现预处理、分类、聚类、关联规则、文本挖掘、可视化等。

  7.TipDM

  顶尖数据挖掘平台(TipDM)是广州TipDM团队花费数年自主研发的一个数据挖掘平台,基于云计算和SOA架构,使用Java语言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型。

  TipDM支持数据挖掘流程所需的主要过程,并提供开放的应用接口和常用算法,能够满足各种复杂的应用需求。支持CRISP-DM流程所需的主要过程,并且完成一系列功能,包括:

image

  TipDM典型应用场景见图3-3。

image

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
数据同步框架MS Sync Framework-不同场景使用例子和简要分析
上一篇http://www.cnblogs.com/2018/archive/2011/02/22/1961654.html 对这个框架一个总体介绍,这篇通过SDK内带的例子和一个综合的例子描述一下这个框架的使用 [例子基于SDK2.
838 0
用字符串常量给字符数组赋值过程分析
引语:用字符串常量给字符数组赋值过程分析,涉及到数据在内存的分配情况,做一个分析! 一、测试案例,假设在某一个函数内部 测试代码段: char a[] = "abcd12";     printf("len = %d\n",strlen(a));     ...
620 0
使用下载工具
今天是玩 SUSE 10的第 二 天装的 软件如下:    suse 10体验版     Eclipse 3.
638 0
MongoDB · 特性分析 · Sharded cluster架构原理
为什么需要Sharded cluster? MongoDB目前3大核心优势:『灵活模式』+ 『高可用性』 + 『可扩展性』,通过json文档来实现灵活模式,通过复制集来保证高可用,通过Sharded cluster来保证可扩展性。 当MongoDB复制集遇到下面的业务场景时,你就需要考虑使用Sh
2595 0
【巡检问题分析与最佳实践】MongoDB 空间使用问题
阿里云数据库MongoDB的空间使用率是一个非常重要的监控指标,如果实例的存储空间完全打满,将会直接导致实例不可用。一般来说,当一个MongoDB实例的存储空间使用比例达到80-85%以上时,就应及时进行处理,要么降低数据库实际占用空间的大小,要么对存储空间进行扩容,以避免空间打满的风险。 然而,阿里云数据库MongoDB的空间使用情况分析并不简单,本文将由浅入深帮您查看,分析和优化云数据库MongoDB的空间使用。
238 0
使用Spring AOP实现MySQL数据库读写分离案例分析
使用Spring AOP实现MySQL数据库读写分离案例分析 前言 分布式环境下数据库的读写分离策略是解决数据库读写性能瓶颈的一个关键解决方案,更是最大限度了提高了应用中读取 (Read)数据的速度和并发量。
1776 0
SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制
SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制 1. 各种循环与控制 DO组 创建一个执行语句块 DO循环 根据下标变量重复执行DO和END之间的语句 DO WHILE 重复执行直到条件为假则退出循环 DO UNTIL 重复执行直到条件为真则退出循环 DO OVER 对隐含下标
1252 0
常用开源框架中设计模式使用分析
说起来设计模式,大家应该都耳熟能详,设计模式代表了软件设计的最佳实践,是经过不断总结提炼出来的代码设计经验的分类总结,这些模式或者可以简化代码,或者可以是代码逻辑开起来清晰,或者对功能扩展很方便...。
8653 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载