数据挖掘——数据归约之大型数据集的维度

简介: 虽然大型数据集可能得到更佳的挖掘结果,但未必能获得比小型数据集更好的挖掘结果 对于多维数据,一个主要的问题是在所有维度中搜寻所有挖掘方案之前,是否可以确定某方法在已归约数据集的挖掘和发现中国发挥得淋漓尽致。

前言
虽然大型数据集可能得到更佳的挖掘结果,但未必能获得比小型数据集更好的挖掘结果
对于多维数据,一个主要的问题是在所有维度中搜寻所有挖掘方案之前,是否可以确定某方法在已归约数据集的挖掘和发现中国发挥得淋漓尽致。

一、大型数据集的维度
数据的描述以及特征的挑选,归约或转换可能是决定挖掘方案质量的最终更要问题。
预处理集的3个主要维度通常表示为平面文件即列,行和特征的值
因此数据归约的3个基本操作就是删除列,删除行和减少列中值的数量。这些操作的目的是试图删掉不必要的数据来保留原始数据的特征

在准备数据挖掘时候,要执行标准的数据归约操作,需要了解通过这些活动可以得到什么或者失去什么? 则需要全面比较需要分析下面的参数:
1) 计算时间—— 数据归约后的比较简单数据,是否可以减少数据挖掘所消耗的时间
2) 预测/描述精度
3) 数据挖掘模型的描述—— 简单的模型描述通常来自数据归约,这往往意味着模型能得到更好的理解。所导出的模型和其他结果的这种简易性依赖于对模型的描述。
理想情况下,使用维度归约既能减少时间又能提高精度,简化模型的描述。

数据归约推荐的特性描述如下:
可测性—— 应用已归约的数据集合可精确的确定近似结果的质量
可识别性——在应用数据挖掘程序之前,在数据归约算法运行期间,很容易确定近似结果的质量
单一性——算法往往是迭代的,计算结果的质量是时间和输入数据质量的一个非递减的函数
一致性——计算结果的质量与计算时间及输入数据质量有关
收益递减——方案在计算的早期能获得很大的改进,但是随着时间递减
可中断性——算法可以随时停止,并给出答案
优先权——算法可以暂停并以最小的开销重新开始

目录
相关文章
|
13天前
|
SQL 存储 算法
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生科技2022年9月24号数据ETL工程师岗位的笔试题目及答案汇总,包括了SQL选择题、SQL编程题和业务应用SQL编程题,涵盖了数据库基础知识、SQL语句编写以及数据仓库概念等多个方面。
30 2
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
|
12天前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
23 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
13天前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
32 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
3月前
|
数据采集 存储 算法
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
|
3月前
|
移动开发 算法 数据可视化
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
|
3月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
3月前
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
3月前
|
数据可视化 算法 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
3月前
|
SQL 机器学习/深度学习 数据挖掘
SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据
SQL Server Analysis Services数据挖掘聚类分析职业、地区、餐饮消费水平数据
|
3月前
|
机器学习/深度学习 数据采集 数据挖掘
数据分享|SAS数据挖掘EM贷款违约预测分析:逐步Logistic逻辑回归、决策树、随机森林
数据分享|SAS数据挖掘EM贷款违约预测分析:逐步Logistic逻辑回归、决策树、随机森林

热门文章

最新文章