数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是可识别的、抽象的符号
数据和信息是两个不同的概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基本单位,离散的数据没有任何实用价值。
计算机系统中的数据组织形式主要有两种,即文件和数据库。
(1)文件:计算机系统中的很多数据都是以文件形式存在的,比如一个WORD文件、一个文本文件、一个网页文件、一个图片文件等等
(2)数据库:计算机系统中另一种非常重要的数据组织形式就是数据库,今天,数据库已经成为计算机软件开发的基础和核心。
在过去,一旦数据的基本用途实现了,往往就会被删除,一方面是由于过去的存储技术落后,人们需要删除旧数据来存储新数据,另一方面则是人们没有认识到数据的潜在价值。
数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值。
各类收集来的数据都应当被尽可能长时间地保存下来,同时也应当在一定条件下与全社会分享,并产生价值。
人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移
从1986年开始到2010年的20年时间里,全球数据的数量增长了100倍,今后的数据量增长速度将更快,我们正生活在一个“数据爆炸”的时代。
典型的数据分析过程包括(如图1-2所示):数据采集与预处理、数据存储与管理、数据处理与分析、数据可视化等,具体如下:
(1)数据采集与预处理:采用各种技术手段把外部各种数据源产生的数据实时或非实时地采集、预处理并加以利用。
(2)数据存储与管理:利用计算机硬件和软件技术对数据进行有效的存储和应用的过程,其目的在于充分有效地发挥数据的作用。
(3)数据处理与分析:数据分析是指用适当的分析方法(来自统计学、机器学习和数据挖掘等领域),对收集来的数据进行分析,提取有用信息和形成结论的过程。
(4)数据可视化:将数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。