数据挖掘-到底在解决什么问题(一)

简介: 数据挖掘-到底在解决什么问题(一)

1、数据挖掘是什么?


数据挖掘:寻找数据中隐含的知识并用于产生商业价值。

bd2abb8db698492db202956c3014fa1f.png

数据挖掘提供了一系列的框架、工具和方法,可以处理不同类型的大量数据,并且使用复杂的算法部署,去探索数据中的模式。


产生原因:

9c95d3f1a8a84331bdd494264ae4f94f.png


2、数据挖掘能做什么?


分类问题:


对已知类别的数据进行学习,为新的内容标注一个类别

030501208bae458891b852593f45b72f.png

聚类问题:


聚类的类别预先是不清楚的比较适合一些不确定的类别场景。

82c9eda69d5f444bb0c6d693f700b857.png

回归问题:


回归问题的最大特点――生成的结果是连续的。


使用回归的方法预测北京某个房子的总价(y)

假设总价只跟房子的面积(x)有关,那么构建的方程式就是ax+b=y

回归方法―—通过构建一个模型去拟合已知的数据(自变量),然后预测因变量结果


http://t.csdn.cn/Q2gpj机器学习:丰田卡罗拉价格回归分析案例 http://t.csdn.cn/Q2gpj


920a73941bc8491cbf3a97d2f12008bd.png


关联问题:


最常见的一个场景—―推荐

e91f198079d04e0ea9cb970e9426a058.png

3、怎么做数据挖掘


数据挖掘是有方法论

数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人提出了完整的流程框架

应用最多的方法论∶

CRISP-DM(Cross-industry Standard Process for Data Mining,跨行业数据挖掘标准流程)


66461a2cca3e4136ac3ed67e1a35671d.png

业务理解(Business Understanding)


业务理解――理解你的数据挖掘要解决什么业务问题

必须从商业或者从业务的角度去了解项目的要求和最终的目的

去分析整个问题涉及的资源、局限、设想,甚至是风险、意外等情况

e689f2eb7fa741df9942fb2de755ed18.png

数据理解(Data Understanding)


数据理解阶段始的重点:

在业务理解的基础上,对掌握的数据要有一个清晰、明确的认识

dfa875e32ea14e35826887956f98984a.png


注意:数据理解和业务理解是相辅相成的


数据准备(Data Preparation)


数据准备是基于原始数据,去构建数据挖掘模型所需的数据集的所有工作

包括数据收集、数据清洗、数据补全、数据整合、数据转换、特征提取等

一系列动作


051423fc749b45609668fd2ec894c315.png

构建模型(Modeling)


构建模型也叫作训练模型,重点解决技术方面的问题。


选用各种各样的算法模型来处理数据,让模型学习数据的规律,并产出模型

如果有多重技术要使用,在这一任务中,对于每一个要使用的技术要分别对待比如SVM算法只能输入数值型的数据。


评估模型(Evaluation)


模型的效果如何,能否满足业务需求

需要使用各种评估手段、评估指标甚至是让业务人员一起参与进来,彻底地评估模型


模型部署(Deployment)


解决一些实际的问题,比如

长期运行的模型是否有足够的机器来支撑,数据量以及并发程度会不会造成部署的服务出现问题




目录
相关文章
|
8月前
|
Java
SpringBoot启动流程
springboot项目在启动的时候, 首先会执行启动引导类里面的SpringApplication.run(AdminApplication.class, args)方法 这个run方法主要做的事情可以分为三个部分 : 第一部分进行SpringApplication的初始化模块,配置一些基本的环境变量、资源、构造器、监听器 第二部分实现了应用具体的启动方案,包括启动流程的监听模块、加载配置环境模块、及核心的创建上下文环境模块 第三部分是自动化配置模块,该模块作为springboot自动配置核心,在后面的分析中会详细讨论
|
10月前
|
存储 缓存 NoSQL
缓存加速新玩法,让你的应用飞起来
本文主要叙述如何运用云数据库 Tair 构建缓存,助力应用提速、优化性能。
|
8月前
|
人工智能 监控 数据可视化
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
3571 13
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
|
10月前
|
机器学习/深度学习 算法 计算机视觉
YOLOv11改进策略【SPPF】| SimSPPF,简化设计,提高计算效率
YOLOv11改进策略【SPPF】| SimSPPF,简化设计,提高计算效率
1840 8
YOLOv11改进策略【SPPF】| SimSPPF,简化设计,提高计算效率
|
编解码 Windows
FFmpeg开发笔记(二十九)Windows环境给FFmpeg集成libxvid
XviD是开源MPEG-4视频编码器,与DivX相似但后者非开源。早期MP4常使用XviD或DivX编码,现已被H.264取代。在Windows上集成FFmpeg的XviD编解码库libxvid,需访问<https://labs.xvid.com/source/>下载源码,解压后在MSYS环境中配置、编译和安装。之后重新配置FFmpeg,启用libxvid并编译安装。详细步骤包括configure命令、make和make install。成功后,通过`ffmpeg -version`检查是否启用libxvid。更多音视频开发技术可参考《FFmpeg开发实战:从零基础到短视频上线》。
297 0
FFmpeg开发笔记(二十九)Windows环境给FFmpeg集成libxvid
|
JavaScript Java 测试技术
基于SpringBoot+Vue的酒店客房管理系统的详细设计和实现
基于SpringBoot+Vue的酒店客房管理系统的详细设计和实现
161 12
【编程基础知识】正数负数的二进制位运算(左移 右移 无符号右移)
正数和负数需转换成二进制后进行移位运算。左移低位补0,不影响符号位;右移符号位跟随移动,最高位还原为原符号位;无符号右移高位补0,适用于负数处理。
803 0
|
Serverless 文件存储 对象存储
函数计算操作报错合集之如何处理安装了ControlNet但无法加载出预览图并报错
在使用函数计算服务(如阿里云函数计算)时,用户可能会遇到多种错误场景。以下是一些常见的操作报错及其可能的原因和解决方法,包括但不限于:1. 函数部署失败、2. 函数执行超时、3. 资源不足错误、4. 权限与访问错误、5. 依赖问题、6. 网络配置错误、7. 触发器配置错误、8. 日志与监控问题。
520 0
函数计算操作报错合集之如何处理安装了ControlNet但无法加载出预览图并报错
|
图形学 Android开发
【实现100个unity特效之6】Unity2d光源的使用
【实现100个unity特效之6】Unity2d光源的使用
441 0
|
编解码 JSON 数据可视化
DeepSeek VL系列开源,魔搭社区模型微调最佳实践教程来啦!
3月11日,DeepSeek-AI开源了全新多模态大模型DeepSeek-VL系列,包含1.3b、7b两种不同规模的4个版本的模型。