带你读《数据自治》第一章绪论1.1数据是什么(一)-阿里云开发者社区

开发者社区> 人民邮电出版社> 正文

带你读《数据自治》第一章绪论1.1数据是什么(一)

简介: 《数据自治》第一章绪论1.1数据是什么
+关注继续查看

在大数据浪潮的推动下,从数据资源到数据资产再到数据要素,数据的重要性持续提高,“数据是数字经济的关键要素”这一论断已经形成共识。持续的信息化使得网络空间形成了庞大的数据资源。对数据资源进行开发利用而形成的数据产业是巨大的。本章界定了数据的内涵,介绍了数据的属性及其与物质的差异、与数据相关的基本概念(包括大数据、数据界、数据资源、数据资产、数据要素等),还介绍了数据产业、数据权属、数据流通、数据自治等内容。本章是本书的导引。

本章由朱扬勇撰写。

1.1 数据是什么

以前常用的一组名词是信息、信息科学、信息技术和信息产业等,现在常用的一组名词是数据、数据科学、数据技术和数据产业。为什么现在叫“大数据”而不是“大信息”?为解决该问题,首先要理清数据是什么,有什么特性。

 

1.1.1         数据界

 

1.1.1.1               数据是什么

传统上,数据是指 96、1011、8084这样一些数值型数据,其实,数据还包括“dataology”“上海市数据科学重点实验室”“2013/09/06”等符号、字符、日期形式的数据,也包括文本、声音、图像、照片和视频等类型的数据,购物记录、住宿记录、旅行记录、银行消费记录、微博、微信、政府文件等也都是数据。

一般认为数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。

本书对数据的定义如下:数据是指被输入网络空间中的任何东西,是网络空间中的唯一存在。 

之所以这样定义数据,是因为大数据、数据科学、数据技术、数据资源、数据资产、数据要素等概念所指的数据都是网络空间的数据。网络空间中的数据和网络空间外面的数据有很大差异,网络空间中的数据是通过计算机处理的,而网络空间外面的数据是人们手工或利用脑力直接处理的。


1.1.1.2               数据界是什么[1-2] 

数据界被定义为网络空间中的所有数据。而网络空间是数据的载体,不是数据界的组成部分。

随着信息化进程的不断发展,数据被持续、大规模地生产,并存储在网络空间中,形成数据界。虽然是人生产了数据,并且人还在不断生产数据,但数据界中的数据已经表现出不为人所控制、未知性、多样性和复杂性等自然界特征。

(1)数据不为人所控制

名词“数据爆炸”“信息爆炸”已经出现 30  多年了,自进入大数据时代以来,人们普遍认为数据每2~3年就会翻一番,且人们无法控制数据的增长,甚至也不了解数据的增长速度。人们无法控制的还有计算机病毒的大量出现和传播、垃圾邮件泛滥、网络的数据攻击增多、数据滥用等。人们使用各种电子设备生产数据,例如拍照、拍X光片、做 CT检查、做各种检验等;人们的出行、工作、购物消费、网络会议、娱乐、在线经济等也都在快速、大规模地生产数据;计算机病毒还能自动、快速、大规模地传播数据。这种大规模的随时随地生产数据的情形是任何政府和组织都不能控制的。虽然从个体上来看,其生产数据是有目的的、可以控制的,但是从总体上来看,数据的生产是不以人的意志为转移的,是以一种类似自然的方式增长的。因此,我们说数据的增长和流动不为人所控制。

(2)数据的未知性

在网络空间中出现了大量未知的数据、未知的数据现象和规律,这是数据科学出现的原因。

数据的未知性主要体现在以下几个方面。

•  数据表示了未知的现实事物:早期人们将已知的事情交给计算机完成,将已知的数据存储到计算机中,将已知的算法写成计算机程序。数据、程序和程序执行的结果都是已知的或可预期的。事实上,这期间计算机的主要作用是帮助人们工作,提高工作效率。因此,计算机所做的事情和生产的数据都是清楚的。随着设备和仪器的数字化进程不断发展,各种设备都在生产数据,于是大量人们并不了解的数据被生产出来并存入网络空间。例如,自从人类基因组计划(HumanGenomeProject,HGP)开始后,巨量的 DNA数据被存储到网络空间中,这些数据是通过 DNA测序仪器检测出来的,是各种生命的 DNA序列数据。虽然人们将 DNA序列存入了网络空间,但在将其存入网络空间时,人们并不了解 DNA序列数据表达了什么,有什么规律,是什么基因片段使得人之间相同或不同,物种进化的基因如何变化,是否有进化或突变,等等。

•  网络空间自有的未知数据:网络空间自有的非现实数据更是未知的。例如,电子游戏创造了一个全新的活动区域,这个区域的所有场景、角色都是虚拟的,还有虚拟货币。这些虚拟区域的事物通过游戏玩家与现实世界联系在一起。因此,游戏世界表现出的和内在的东西在现实世界中是不存在的,是未知的。

•  不能看到数据反映的现实:也许网络空间中某些数据早就显示人类将面临一场能源危机,人们却无法从数据中得到这样的知识。虽然每个人都是将个人已知的事物和事情存储到网络空间中,但是,当一个组织、一个城市或一个国家的公民都将其个人工作、生活中的事物存储到网络空间中时,数据将反映这个组织、城市或国家的整体状况,包括国民经济和社会发展的各种规律和问题。这些由各种数据综合反映的社会经济规律是人们事先不知道的,也就是说,信息化工作将社会经济规律这些未知的东西也存储到了网络空间中。

•  无法判别数据的真实性:人们不知道从互联网上获得的数据是否是正确的和真实的,当人们在两个不同的网站上对相同的目标进行搜索访问时,得到的结果可能是不一样的,人们无法判断哪个结果是正确的。

•  如何认识数据界:人们不知道数据界有多大,数据界以怎样的速度在增长,数据界的数据是否会阻塞整个网络,等等。

(3)数据的多样性和复杂性

随着技术的进步,存储到网络空间中的数据的类别和形式越来越多。早期的数据主要通过键盘录入,大部分是字符数据;从 20世纪 90年代开始,多媒体设备、数字化设备的大量出现(例如音频、视频设备等)使数据的生产方式变得多样、生产数据的速度飞速加快,远远超出了信息技术进步的速度,这也为现在的大数据埋下伏笔。数据的多样性是指数据类别多样,如不同语言的数据、不同行业的数据、空间数据、海洋数据、DNA数据等,还包括互联网中/不在互联网中的数据、公开/非公开的数据、企业/政府的数据等。数据的复杂性体现在两个方面:一是数据具有各种各样的格式,包括各种专用格式和通用格式;二是数据之间存在着复杂的关联性。


数据界已经形成。由于网络空间的数据已经表现出不为人所控制、未知性、多样性和复杂性等自然界特征,没有哪个人、哪个组织、哪个国家能够控制网络空间中数据的增长、流动。很多数据表达的是现实中的事物,还有很多(甚至是更多)数据是与现实无关的,这些数据只在网络空间中存在,不表示任何现实的事物,因此这是另外一个世界——数据界。


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
带你读《Python数据分析与数据化运营(第2版)》之一:Python和数据化运营
这是一本将数据分析技术与数据使用场景深度结合的著作,从实战角度讲解了如何利用Python进行数据分析和数据化运营。作者是有10余年数据分析与数据化运营的大数据专家,书中对50余个数据工作流知识点、14个数据分析与挖掘主题、4个数据化运营主题、8个综合性案例进行了全面的讲解,能让数据化运营结合数据使用场景360°落地。
1934 0
什么是数据湖,有什么用?
在本文中,将介绍数据湖的一些主要方面,帮助读者理解为什么它对企业非常重要。
860 0
什么是数据湖分析?
数据湖分析(Data Lake Analytics,DLA)是无服务器(Serverless)化的云上交互式查询分析服务。无需ETL,就可通过DLA在云上通过标准JDBC直接对阿里云OSS,TableStore,RDS,MongoDB等不同数据源中存储的数据进行查询和分析。
642 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4615 0
带你读《数据挖掘导论(原书第2版)》之二:数据
本书所涵盖的主题包括:数据预处理、预测建模、关联分析、聚类分析、异常检测和避免错误发现。通过介绍每个主题的基本概念和算法,为读者提供将数据挖掘应用于实际问题所需的必要背景。
3473 0
472
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载