数据挖掘——大型数据集-阿里云开发者社区

数据挖掘——大型数据集

2017-04-01 3323

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我们分析和理解大规模数据集（成为大数据）的能力，远远落后于采集和存储数据的能力。

df7e3a6cfc41b710cc5fd0bddd75e7ccf05df0d7

我们分析和理解大规模数据集（成为大数据）的能力，远远落后于采集和存储数据的能力。

数据采集和存储能力得益于计算，通信，数字化存储技术的不断发展以及高吞吐量的数据获取技术。

数字化信息的大型数据库无处不在，附近商店的结账记录，银行信用卡授权机构，医院办公室中的病例记录以及许多应用程序中的数据都会生成数字记录流，放在巨大的商业数据库中。

数据搜集和组织能力与数据分析能力之间的差距正在迅速扩大。问题的根源在于数据多出进行手工分析和解释，甚或基于计算机的半自动化分析，其规模和维数都太大了。

目前唯一的解决办法是用新的数据挖掘技术来代替传统的数据分析和解释方法。

数据可分为结构化数据，半结构化数据和非结构化数据。

结构化数据由定义明确的字段组成，这些字段包含数字值或者字母数字值。半结构化数据的例子有商务文档的电子图像，医学报告，执行概要和修复手册等。非结构化数据的例子有百货商店的监视摄像机所记录的录像等。

结构化数据通常成为传统数据，半结构化数据和非结构化数据合称为非传统数据。

对结构化数据进行数据挖掘的标准模型是一组案例，它们指定了潜在的度量（成为特征），这些特征在许多案例中的测量方式都相同。数据挖掘问题的结构化数据通常以表格表示或者用单个关系来表述。

大型数据集包括带有混合数据类型的数据集，是应用数据挖掘技术的典型初始环境。

大型数据集放在计算机中时在运用数据挖掘技术前首先要解决数据质量这个重要的问题。必须在数据挖掘过程的早期阶段进行数据质量的分析。

数据质量可以限制最终用户做出明智决策的能力，他对系统的映像有深渊的影响，并决定了隐含着描述的相应模型。

在数据挖掘过程的数据处理阶段应考虑这些指标：

1. 数据应当准确。

2.应该根据数据类型来存储数据

3.数据应该完整

4.数据要一致，集成了不同来源的大型数据集后，数据的形式和内容应一致。

5.数据不要有冗余

6.数据应当具有时效性

7.数据应当能被正确的理解。

8.数据集应完整。将现实中数据丢失的情形降到最低，同时要采用健壮性的数据挖掘技术即可以分析丢失了值的数据集

数据挖掘——大型数据集