数据挖掘-到底在解决什么问题(一)

简介: 数据挖掘-到底在解决什么问题(一)

1、数据挖掘是什么?


数据挖掘:寻找数据中隐含的知识并用于产生商业价值。

bd2abb8db698492db202956c3014fa1f.png

数据挖掘提供了一系列的框架、工具和方法,可以处理不同类型的大量数据,并且使用复杂的算法部署,去探索数据中的模式。


产生原因:

9c95d3f1a8a84331bdd494264ae4f94f.png


2、数据挖掘能做什么?


分类问题:


对已知类别的数据进行学习,为新的内容标注一个类别

030501208bae458891b852593f45b72f.png

聚类问题:


聚类的类别预先是不清楚的比较适合一些不确定的类别场景。

82c9eda69d5f444bb0c6d693f700b857.png

回归问题:


回归问题的最大特点――生成的结果是连续的。


使用回归的方法预测北京某个房子的总价(y)

假设总价只跟房子的面积(x)有关,那么构建的方程式就是ax+b=y

回归方法―—通过构建一个模型去拟合已知的数据(自变量),然后预测因变量结果


http://t.csdn.cn/Q2gpj机器学习:丰田卡罗拉价格回归分析案例 http://t.csdn.cn/Q2gpj


920a73941bc8491cbf3a97d2f12008bd.png


关联问题:


最常见的一个场景—―推荐

e91f198079d04e0ea9cb970e9426a058.png

3、怎么做数据挖掘


数据挖掘是有方法论

数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人提出了完整的流程框架

应用最多的方法论∶

CRISP-DM(Cross-industry Standard Process for Data Mining,跨行业数据挖掘标准流程)


66461a2cca3e4136ac3ed67e1a35671d.png

业务理解(Business Understanding)


业务理解――理解你的数据挖掘要解决什么业务问题

必须从商业或者从业务的角度去了解项目的要求和最终的目的

去分析整个问题涉及的资源、局限、设想,甚至是风险、意外等情况

e689f2eb7fa741df9942fb2de755ed18.png

数据理解(Data Understanding)


数据理解阶段始的重点:

在业务理解的基础上,对掌握的数据要有一个清晰、明确的认识

dfa875e32ea14e35826887956f98984a.png


注意:数据理解和业务理解是相辅相成的


数据准备(Data Preparation)


数据准备是基于原始数据,去构建数据挖掘模型所需的数据集的所有工作

包括数据收集、数据清洗、数据补全、数据整合、数据转换、特征提取等

一系列动作


051423fc749b45609668fd2ec894c315.png

构建模型(Modeling)


构建模型也叫作训练模型,重点解决技术方面的问题。


选用各种各样的算法模型来处理数据,让模型学习数据的规律,并产出模型

如果有多重技术要使用,在这一任务中,对于每一个要使用的技术要分别对待比如SVM算法只能输入数值型的数据。


评估模型(Evaluation)


模型的效果如何,能否满足业务需求

需要使用各种评估手段、评估指标甚至是让业务人员一起参与进来,彻底地评估模型


模型部署(Deployment)


解决一些实际的问题,比如

长期运行的模型是否有足够的机器来支撑,数据量以及并发程度会不会造成部署的服务出现问题




目录
相关文章
|
数据挖掘 Go 数据库
数据分析与数据挖掘研究之一 (下)
数据分析与数据挖掘研究之一
数据分析与数据挖掘研究之一 (下)
|
数据挖掘 数据库 Perl
数据分析与数据挖掘研究之一 (上)
之前做过一些数据分析与数据挖掘相关的工作,最近抽空将之前做的内容简单整理一下,方便查看,主要使用R语言和PERL脚本语言,使用TCGA和ICGC数据库中的临床数据,做类似的分析可以参考一下,如果想查看详细内容与数据可以通过本人的Gitee及Github仓库下载,链接于篇尾附上。
数据分析与数据挖掘研究之一 (上)
|
机器学习/深度学习 人工智能 算法
机器学习与数据挖掘
机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。 几种定义: 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能 机器学习是对能通过经验自动改进的计算机算法的研究 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
机器学习与数据挖掘
|
机器学习/深度学习 自然语言处理 算法
数据挖掘
简单介绍数据挖掘的概念以及常见的流程
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
135 0
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)
|
存储 机器学习/深度学习 SQL
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(一)
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(一)
166 0
|
机器学习/深度学习 算法 数据可视化
数据挖掘(二)
7.预测模型 预测模型检验并识别现有数据中的模式,以预测未来的结果。构建预测模型包括应用统计技术来获取和显示公开数据中所包含的信息。 图2.6预测模型 决策树 决策树是最通用的建模技术之一。该模型可以单独用于预测,也可以用作开发其他预测模型建模技术。
|
数据采集 存储 机器学习/深度学习
数据挖掘(一)
1.简介 大数据时代正在唤醒企业通过利用客户数据获得竞争优势的机会。数据的广泛使用性和高度复杂性让仅使用传统决策技术来盈利变成不可能。这些传统方法主要使用电子表格,数据库查询和其它商业智能工具。另外,人们对从大数据中提取的有用信息和知识方法越来越感兴趣,这使得决策风格从基于经验直觉逐渐转变成数据驱动。
|
数据挖掘
《数据挖掘:实用案例分析》——第1章 初识数据挖掘 1.1 什么是数据挖掘
本节书摘来自华章计算机《数据挖掘:实用案例分析》一书中的第1章,第1.1节,作者 张良均 陈俊德 刘名军 陈荣,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1664 0
|
算法 搜索推荐 物联网
《移动数据挖掘》—— 导读
大约在十年前,本书作者所在的研究团队,也就是目前的微软亚洲研究院社会计算组,对挖掘人群移动数据中隐藏的知识产生了兴趣。这个团队在2007年开展了GeoLife项目,通过用户主动分享的移动数据来研究用户的出行模式,为旅游规划等应用提供支持。
1763 0