开发者社区> 阿尔法胖哥> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

数据挖掘标准规范之CRISP-DM基础

简介: 一、前言   每每提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工程化实践者。
+关注继续查看

一、前言

  每每提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工程化实践者。数据挖掘非今日之物,大数据挖掘也不是一个孤立的概念,其实质还是采用传统的数据挖掘的方法,只是其实现工具发生了变化而已,本质的东西还在。引入发布近20年前的CRISP-DM数据挖掘标准规范模型,供大家共享,希望能有人喜欢。

二、框架

三、详述

3.1 业务理解(Business Understanding)

   最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。

3.2  数据理解(Data Understanding)

   数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。

3.3  数据准备(Data Preparation)

   数据准备阶段包括从未处理的数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。

3.4  建模(Modeling)

   在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。

3.5  评估(Evaluation)

  到这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保 模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。

3.6  部署(Deployment)

   通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简 单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。

四、总结

  从以上流程和规范我们可以看到,算法实现过程,其实只占了数据挖掘的一部分,真正要想实现数据挖掘,并达到数据挖掘的目标,我们需要做的事情还有很多。

  莫愁前路无知己,夜暗自有早行人。数据挖掘技术交流请加:大数据架构师技术交流:347018601


作者:张子良
出处:http://www.cnblogs.com/hadoopdev
本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
云MSP技本功|基于OGG 实现Oracle到Kafka增量数据实时同步
在大数据时代,存在大量基于数据的业务。数据需要在不同的系统之间流动、整合。通常,核心业务系统的数据存在OLTP数据库系统中,其它业务系统需要获取OLTP系统中的数据。传统的数仓通过批量数据同步的方式,定期从OLTP系统中抽取数据。
2203 0
数据治理——企业数字化转型的基石
在数据资产价值被高度认可和开发利用的今天,数据治理不仅仅需要作为一项管理职能在企业内贯彻执行,也应该成为一种企业文化。
3750 0
【经验】零基础该如何入门数据挖掘?
在天池创立之初,我们的使命就是:让无法触及大数据的人能够触及到真正企业级的大数据。秉承着这样的理念,我们在天池平台上培养和锻炼了一批又一批的大数据人才。
1495 0
教你如何反编译app,拿到加密方式
大家知道app 有安卓和ios 安卓是apk 现在基本上apk都是经过加密的 想动态脱壳没一定的技术是搞不定的 IOS是ipa 今天我主要讲的是这个   准备好反编译设备 1.一套越狱的ios手机 我的设备是iphone6 ios8.
1998 0
Http服务器如何在HTTP response中传送二进制图片
要想知道如何传送这些二进制,先来点二进制文件的背景知识    —文件魔数 magic number: 操作系统的文件,其起始的几个字节的内容是固定的。
866 0
第八章 Libgdx输入处理(7)罗盘
Android游戏开发群:290051794 Libgdx游戏开发框架交流群:261954621   有些Android设备集成了罗盘。 查询罗盘是否可用的代码如下: boolean compassAvail = Gdx.
785 0
CSS中通过import方式导入的方法
在高性能网站设计的第五章,我简要的提到@import 对于网站的性能有某些负面的影响,然后我在 Web 2.0 Expo 的演讲上深入探讨了这个问题,并创建了一些测试页面和HTTP瀑布状图表,这些在下面将会用到。对于这个问题的底线是:如果你想样式表并行载入,以使页面更快,请使用LINK 替代@import。 LINK vs. @import 大家都知道,有两种方法可以在你的页面中导
1234 0
数据加密标准(DES)的C#实现(2)
/**//* * 数据加密标准(DES)的C#实现(2) *  * 采用随机的密钥Key和初始化向量IV加密 * 使用随机密码的好处:系统不会产生弱密钥 * 备注:采用Base64编码格式输出密文、密钥和初始化向量 *  * 夏春涛 Email:xChuntao@163.com  * Blog:http://bluesky521.cnblogs.com * 运行环境:.net2.0 framework *//**//*  * 关于DES加密中的初始化向量IV: * 对于给定的密钥 k,不使用初始化向量的简单块密码将同一个纯文本输入块加密为 * 同一个密码文本输出块。
741 0
+关注
阿尔法胖哥
资深数据产品专家,人工智能探索者。
165
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载