【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )

简介: 【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )

文章目录

一、 数据挖掘引入

二、 数据挖掘简介

三、 数据挖掘 与 KDD ( Knowledge Discovery From Data ) 从数据到知识

四、 数据挖掘中的数据源

五、 数据挖掘中的特点



一、 数据挖掘引入


1 . 数据过载问题 :



① 海量数据 : 自动化的数据收集工具 和 成熟的数据库技术 , 积累了海量数据 ;


② 数据处理瓶颈 : 需要在 数据库 , 数据仓库 , 或其它信息介质中处理海量数据 ;



我们被数据淹死了 , 但是渴望知识 ; 数据太多并没有用 , 需要将 有用的知识 和 无用的信息 分辨出来 ;



2 . 解决方案 :



① 数据仓库技术 : 数据仓库技术 和 在线分析处理技术 ;


② 数据挖掘技术 : 从海量数据中 , 挖掘感兴趣的知识 ;




二、 数据挖掘简介


1 . 数据挖掘 ( Data mining ) : 其本质目的是将数据转换成知识 ; 从大量数据中 , 提取出感兴趣的 模式 ( Patterns ) 或 知识 ( Knowledge ) ;



2 . 数据挖掘 的代名词 :



① KDD ( 从数据到知识 ) : Knowledge Discovery From Data


② 知识抽取 : Knowledge Extraction ;


③ 数据 / 模式分析 : Data / Pattern Analysis ;


④ 信息收获 : Information Harvesting ;


⑤ 商务智能 : Business Intelligence



与数据挖掘类似的技术还有 模式识别 , 机器学习等 ;



3 . 查询处理 与 数据挖掘 :



① 数据库查询操作 : 在数据库中使用 SQL 语句查询 , 不属于数据挖掘范畴 , 这属于查询处理范畴 ;


② 查询处理 与 数据挖掘 区别 : 数据挖掘的 知识预先是不知道的 , 挖掘出来的知识准确性也不知道 , 数据库查询出来的都是可预见的 , 结果是精确的 ;




三、 数据挖掘 与 KDD ( Knowledge Discovery From Data ) 从数据到知识


数据挖掘可以看做 KDD 的一个步骤 ;



KDD 概念 : Knowledge Discovery From Data , 从数据到知识 ;



KDD 完整流程 : 第六个步骤就是 数据挖掘 , 数据挖掘大约占 KDD 的 1/4 工作量 ;



① 数据源 : 数据源的海量数据


② 数据继承 ( 过程 ) : 通过数据采集 , 从海量数据中采集目标数据 ;


③ 目标数据 : 产生目标数据 ;


④ 数据预处理 ( 过程 ) : 预处理目标数据 , 生成洁净数据 ;


⑤ 洁净数据 : 产生洁净数据 ;


⑥ 数据挖掘 ( 过程 ) : 使用数据挖掘 , 从洁净数据中发现模式 ;


⑦ 模式 : 得到模式 ;


⑧ 评估表示 ( 过程 ) : 评估表示 数据挖掘得到的模式 , 得到知识 ;


⑨ 知识 : 最终得到的知识 ;

image.png



实际上工作时的数据挖掘包括了整个 KDD 所有流程 ;




四、 数据挖掘中的数据源


任何数据都可以用于数据挖掘 , 音乐数据 , 图像数据 , 视频数据 , 文本数据等都可以被挖掘 ;


数据挖掘的算法本质是一样的 , 只是针对不同的数据 , 进行对应的修改 ;




五、 数据挖掘中的特点


1 . 用于挖掘的数数据源 必须 真实 :



① 存在的真实数据 : 数据挖掘处理的数据一般是存在的真实数据 , 不是专门收集的数据 ;


② 数据收集 : 该工作不属于数据挖掘范畴 , 属于统计任务 ;



2 . 数据必须海量 :



① 少量数据处理 : 少量数据使用统计方法分析 , 不必使用数据挖掘 ;


② 海量数据 : 处理海量数据时 , 才使用数据挖掘 , 涉及到 有效存储 , 快速访问 , 合理表示 等方面的问题 ;



3 . 数据挖掘的查询是随机的 :



① 要求不精确 : 查询灵活 , 没有精确的要求 ( 无法用 SQL 语句写出来 ) ;


② 结果正确性未知 : 查询出来结果也不知道是否准确 ;



4 . 未知结果 :



① 挖掘结果 : 数据挖掘 挖掘出的知识是未知的 , 目的是为了发掘潜在的知识 , 模式 ;


② 知识使用 : 数据挖掘出的知识只能在特定领域使用 , 如金融领域数据挖掘结果 , 只能在金融领域及相关领域使用 ;


目录
相关文章
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
1089 0
|
机器学习/深度学习 人工智能 数据挖掘
【Python数据挖掘】数据挖掘简介及Jupyter notebook操作介绍(图文解释 超详细)
【Python数据挖掘】数据挖掘简介及Jupyter notebook操作介绍(图文解释 超详细)
316 0
|
数据采集 数据可视化 数据挖掘
爬虫技术对携程网旅游景点和酒店信息的数据挖掘和分析应用
爬虫技术是一种通过网络爬取目标网站的数据并进行分析的技术,它可以用于各种领域,如电子商务、社交媒体、新闻、教育等。本文将介绍如何使用爬虫技术对携程网旅游景点和酒店信息进行数据挖掘和分析,以及如何利用Selenium库和代理IP技术实现爬虫程序
1218 0
|
存储 监控 数据挖掘
【计算机三级数据库技术】第14章 数据仓库与数据挖掘-
文章概述了数据仓库和数据挖掘技术的基本概念、决策支持系统的发展、数据仓库的设计与建造、运行与维护,以及联机分析处理(OLAP)与多维数据模型和数据挖掘技术的步骤及常见任务。
156 3
|
机器学习/深度学习 分布式计算 数据挖掘
数据仓库与数据挖掘技术的结合应用
【7月更文挑战第30天】数据仓库与数据挖掘技术的结合应用是现代企业实现高效决策和精准分析的重要手段。通过整合高质量的数据资源,利用先进的数据挖掘技术,企业可以更好地理解市场、客户和业务,从而制定科学的决策和战略。未来,随着技术的不断进步和应用场景的不断拓展,数据仓库与数据挖掘技术的结合应用将会为企业的发展提供更多机遇和挑战。
|
机器学习/深度学习 数据采集 算法
数据科学基础:数据挖掘与分析的技术探讨
【6月更文挑战第15天】本文探讨数据科学中的数据挖掘与分析技术,阐述其基础理论,包括数据预处理、探索和模型建立,并介绍统计分析、机器学习、深度学习等方法。面对数据质量、算法选择等挑战,数据挖掘在智能决策、个性化服务、预测等方面展现广阔前景,将在跨领域融合中发挥更大作用,同时也需关注隐私安全与技术伦理。
|
数据采集 自然语言处理 数据可视化
基于python数据挖掘在淘宝评价方面的应用与分析,技术包括kmeans聚类及情感分析、LDA主题分析
本文探讨了基于Python数据挖掘技术在淘宝评价分析中的应用,涵盖了数据采集、清洗、预处理、评论词频分析、情感分析、聚类分析以及LDA主题建模和可视化,旨在揭示淘宝客户评价中的潜在模式和情感倾向,为商家和消费者提供决策支持。
406 0
|
数据采集 数据可视化 数据挖掘
数据挖掘微博:爬虫技术揭示热门话题的趋势
微博是中国最大的社交媒体平台之一,每天有数亿用户在上面发表自己的观点、分享自己的生活、参与各种话题。微博上的热门话题反映了用户的关注点和社会的动态,对于分析舆情、预测市场、探索文化等方面都有重要的价值。本文将介绍如何使用爬虫技术从微博上抓取热门话题的数据,并通过可视化的方式展示热门话题的变化趋势。
690 0
数据挖掘微博:爬虫技术揭示热门话题的趋势
|
机器学习/深度学习 算法 数据挖掘
数据挖掘:Python数据分析中的高级技术点
数据挖掘:Python数据分析中的高级技术点
194 0
|
机器学习/深度学习 数据采集 算法
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
345 0
下一篇
开通oss服务