人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移
从1986年开始到2010年的20年时间里,全球数据的数量增长了100倍,今后的数据量增长速度将更快,我们正生活在一个“数据爆炸”的时代。
典型的数据分析过程包括(如图1-2所示):数据采集与预处理、数据存储与管理、数据处理与分析、数据可视化等,具体如下:
(1)数据采集与预处理:采用各种技术手段把外部各种数据源产生的数据实时或非实时地采集、预处理并加以利用。
(2)数据存储与管理:利用计算机硬件和软件技术对数据进行有效的存储和应用的过程,其目的在于充分有效地发挥数据的作用。
(3)数据处理与分析:数据分析是指用适当的分析方法(来自统计学、机器学习和数据挖掘等领域),对收集来的数据进行分析,提取有用信息和形成结论的过程。
(4)数据可视化:将数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。