一、定义与特点
对于大数据目前还没有一个权威的定义,每个领域、公司、个人等对大数据的定义是不同的,但是总结起来大致包含三层定义:
- 数据量达到一定级别,能够满足一定的分析需求;
- 传统的方法和技术很难进行有效的分析;
- 通过对大数据的分析,可以得出在少量数据下无法得出的结论。
通常我们所说的大数据,更多的指的通过对大量数据进行快速分析,在较短的时间内得出有价值的信息。
大数据主要有如下四个特点:
- 数据规模巨大;
- 数据种类繁多;
- 数据价值难以挖掘;
- 数据处理速度要求很高。
目前大数据的类型主要有结构化数据、半结构化数据和非结构化数据。由于数据繁杂并且多样化,使得大数据的整体价值密度比较低,需要运用特定的技术方法来对数据进行收集、筛选、分析和整理。
二、处理大数据的技术步骤
大数据的处理步骤主要包括:数据获取与预处理、数据组织与管理、数据分析以及数据解释四个步骤。
2.1 数据获取与预处理
大数据处理的一个重要特征是数据来源与类型的多样,可能包括结构化数据、半结构化数据和非结构化数据,这些数据是系统从各种设备中抽取出来的数据,并根据不同的数据类型出去相应的关系和实体。抽取数据之后需要对数据进行清洗,删除一些噪音以及不完整的数据。另外大数据是根据数据来产生模式的,而且模式随着数据的增长不断演化,因此在当前阶段要保证数据与模式演化的一致性。
2.2 数据组织与管理
从各种设备中抽取的数据金国预处理之后需要将数据存储到数据管理系统中。数据管理系统需要对海量的数据进行存储管理,因此常用的方式是以分布式的方式进行存储。并且在大数据环境下数据的存储位置将会更大程度的影响计算性能,因此如何将数据以合理的方式分布存储在一个大规模分布式系统中是大数据组织管理的重要一环和重大挑战。
2.3 数据分析
数据分析是整个处理流程的核心部分。数据分析主要通过机器学习方法、数据挖掘以及数据统计分析等方法来实现对数据价值的获取,并提供给相应的应用程序使用。针对大数据,我们索要做的必须是如下三点,首先对数据进行预处理,因为大数据系统中的原始数据的数据噪音很大,其次大数据的一个主要特征是数据更新快,因此对数据分析处理的实时性要求很高,但对准确性的要求反而下降了一些,最后云计算平台为大数据处理提供了一个不错的支撑,因此分析大数据的算法要针对云计算进行响应的调整。
2.4 数据解释
数据解释主要是为了将数据的价值以可视化的形式展现给用户,从而让用户更加直观的了解数据的价值。数据解释主要通过可视化界面以及相关系统与用户的人机交互让用户对整个分析过程以及数据的价值有一个直观的了解。
前面我们说到的数据组织管理的形式直接影响了数据的加载速度和计算性能,就目前来说它不仅仅影响了这两方面,还会影响到数据的抽取和预处理效率,并且还会对数据分析效率产生直接影响。大数据环境下数据处理模式的变化使得数据组织管理的形式对系统产生更大的影响。
三、大数据存在的问题
大数据在处理性能和系统可扩展性方面都面临巨大的跳帧,主要是由数据的特征以及分析处理需求带来的。下面列出了两个主要的问题:
- 分布式环境下,大数据应用系统面临的数据量是不可预知的也是前所未有的,因此系统必须具备存储并管理海量数据的能力。分布式系统下大数据系统的数据处理模式已经发生了改变,因此数据块的位置将对数据处理性能产生直接的影响。
- 分布式环境下,大数据系统对处理仍然由实时性要求,比如微博,几乎在热点事件发生几秒钟后相关时间就会出现在微博热搜上。