【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )

简介: 【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )

文章目录

一、 数据挖掘引入

二、 数据挖掘简介

三、 数据挖掘 与 KDD ( Knowledge Discovery From Data ) 从数据到知识

四、 数据挖掘中的数据源

五、 数据挖掘中的特点



一、 数据挖掘引入


1 . 数据过载问题 :



① 海量数据 : 自动化的数据收集工具 和 成熟的数据库技术 , 积累了海量数据 ;


② 数据处理瓶颈 : 需要在 数据库 , 数据仓库 , 或其它信息介质中处理海量数据 ;



我们被数据淹死了 , 但是渴望知识 ; 数据太多并没有用 , 需要将 有用的知识 和 无用的信息 分辨出来 ;



2 . 解决方案 :



① 数据仓库技术 : 数据仓库技术 和 在线分析处理技术 ;


② 数据挖掘技术 : 从海量数据中 , 挖掘感兴趣的知识 ;




二、 数据挖掘简介


1 . 数据挖掘 ( Data mining ) : 其本质目的是将数据转换成知识 ; 从大量数据中 , 提取出感兴趣的 模式 ( Patterns ) 或 知识 ( Knowledge ) ;



2 . 数据挖掘 的代名词 :



① KDD ( 从数据到知识 ) : Knowledge Discovery From Data


② 知识抽取 : Knowledge Extraction ;


③ 数据 / 模式分析 : Data / Pattern Analysis ;


④ 信息收获 : Information Harvesting ;


⑤ 商务智能 : Business Intelligence



与数据挖掘类似的技术还有 模式识别 , 机器学习等 ;



3 . 查询处理 与 数据挖掘 :



① 数据库查询操作 : 在数据库中使用 SQL 语句查询 , 不属于数据挖掘范畴 , 这属于查询处理范畴 ;


② 查询处理 与 数据挖掘 区别 : 数据挖掘的 知识预先是不知道的 , 挖掘出来的知识准确性也不知道 , 数据库查询出来的都是可预见的 , 结果是精确的 ;




三、 数据挖掘 与 KDD ( Knowledge Discovery From Data ) 从数据到知识


数据挖掘可以看做 KDD 的一个步骤 ;



KDD 概念 : Knowledge Discovery From Data , 从数据到知识 ;



KDD 完整流程 : 第六个步骤就是 数据挖掘 , 数据挖掘大约占 KDD 的 1/4 工作量 ;



① 数据源 : 数据源的海量数据


② 数据继承 ( 过程 ) : 通过数据采集 , 从海量数据中采集目标数据 ;


③ 目标数据 : 产生目标数据 ;


④ 数据预处理 ( 过程 ) : 预处理目标数据 , 生成洁净数据 ;


⑤ 洁净数据 : 产生洁净数据 ;


⑥ 数据挖掘 ( 过程 ) : 使用数据挖掘 , 从洁净数据中发现模式 ;


⑦ 模式 : 得到模式 ;


⑧ 评估表示 ( 过程 ) : 评估表示 数据挖掘得到的模式 , 得到知识 ;


⑨ 知识 : 最终得到的知识 ;

image.png



实际上工作时的数据挖掘包括了整个 KDD 所有流程 ;




四、 数据挖掘中的数据源


任何数据都可以用于数据挖掘 , 音乐数据 , 图像数据 , 视频数据 , 文本数据等都可以被挖掘 ;


数据挖掘的算法本质是一样的 , 只是针对不同的数据 , 进行对应的修改 ;




五、 数据挖掘中的特点


1 . 用于挖掘的数数据源 必须 真实 :



① 存在的真实数据 : 数据挖掘处理的数据一般是存在的真实数据 , 不是专门收集的数据 ;


② 数据收集 : 该工作不属于数据挖掘范畴 , 属于统计任务 ;



2 . 数据必须海量 :



① 少量数据处理 : 少量数据使用统计方法分析 , 不必使用数据挖掘 ;


② 海量数据 : 处理海量数据时 , 才使用数据挖掘 , 涉及到 有效存储 , 快速访问 , 合理表示 等方面的问题 ;



3 . 数据挖掘的查询是随机的 :



① 要求不精确 : 查询灵活 , 没有精确的要求 ( 无法用 SQL 语句写出来 ) ;


② 结果正确性未知 : 查询出来结果也不知道是否准确 ;



4 . 未知结果 :



① 挖掘结果 : 数据挖掘 挖掘出的知识是未知的 , 目的是为了发掘潜在的知识 , 模式 ;


② 知识使用 : 数据挖掘出的知识只能在特定领域使用 , 如金融领域数据挖掘结果 , 只能在金融领域及相关领域使用 ;


目录
相关文章
|
4月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
126 0
|
5月前
|
机器学习/深度学习 人工智能 数据挖掘
【Python数据挖掘】数据挖掘简介及Jupyter notebook操作介绍(图文解释 超详细)
【Python数据挖掘】数据挖掘简介及Jupyter notebook操作介绍(图文解释 超详细)
75 0
|
8月前
|
数据采集 数据可视化 数据挖掘
爬虫技术对携程网旅游景点和酒店信息的数据挖掘和分析应用
爬虫技术是一种通过网络爬取目标网站的数据并进行分析的技术,它可以用于各种领域,如电子商务、社交媒体、新闻、教育等。本文将介绍如何使用爬虫技术对携程网旅游景点和酒店信息进行数据挖掘和分析,以及如何利用Selenium库和代理IP技术实现爬虫程序
313 0
|
7月前
|
机器学习/深度学习 数据采集 算法
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
105 0
|
8月前
|
数据采集 数据可视化 数据挖掘
数据挖掘微博:爬虫技术揭示热门话题的趋势
微博是中国最大的社交媒体平台之一,每天有数亿用户在上面发表自己的观点、分享自己的生活、参与各种话题。微博上的热门话题反映了用户的关注点和社会的动态,对于分析舆情、预测市场、探索文化等方面都有重要的价值。本文将介绍如何使用爬虫技术从微博上抓取热门话题的数据,并通过可视化的方式展示热门话题的变化趋势。
130 0
数据挖掘微博:爬虫技术揭示热门话题的趋势
|
10月前
|
机器学习/深度学习 存储 分布式计算
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
|
机器学习/深度学习 数据采集 自然语言处理
数据挖掘:比赛的流程干货分享
数据挖掘:比赛的流程干货分享
144 0
数据挖掘:比赛的流程干货分享
|
机器学习/深度学习 算法 数据挖掘
|
算法 数据挖掘 Windows
【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
147 0
|
资源调度 算法 数据挖掘
【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )
【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )
208 0