1.2 数据资源
信息化在带来便利性、提高生产力的同时,还馈赠了一种全新的资源——数据资源。得益于信息化的实施和推进,各行各业都在不断地使用和产生新的数据,逐步形成数据资源。保护、开发、利用好数据资源是提高国家综合国力和国际竞争力的必然选择。
1.2.1 信息化的意外馈赠
20世纪 90年代,世界主要国家先后推出并实施“信息高速公路”计划,极大推进了信息化进程。我国相继启动了以金关、金卡和金税为代表的重大信息化应用工程,积极推进我国国民经济信息化。
经过国民经济与社会信息化发展战略的实施,信息技术被人们所熟知,信息技术的应用广泛渗透到了社会、经济和生活的方方面面。难以想象,如果没有网络,跨国公司该如何高效办公;如果没有银行卡,我们如何提着几百万元的现金买卖房屋;如果没有手机,我们如何快速与远方的亲朋取得联络……正如实施信息化时对其所抱的期待那样,信息化给人们的工作、学习、生活带来了极大的便利,促进了人类社会的进步与发展[9]。
信息化给人类带来了出乎意料的礼物,那就是它创造了一个全新的资源——数据资源。信息化是生产数据的过程:一方面,计算机做了很多原先由手工做的事情,而且做得更准确、更便捷、更高效;另一方面,现实的事物通过摄像头、录音笔、传感器等设备被采集到计算机中。这个过程使得计算机中积累了大量的数据,因此我们需要不断地增加新的存储系统、不停地买硬盘和U盘、不断地做备份、不断地保证数据安全,这样才能保护好信息化的成果、保存好我们的工作成果、保存好值得纪念和美好的内容等。
随着技术的进步,信息化生产的数据从早期仅由键盘录入的字符数据,逐渐扩展成由多媒体设备、数字化设备(如音频、视频设备等)录入的多类型非结构化数据。而随着各种感知大自然的设备(例如温度/湿度传感器、天文望远镜、对地观测卫星等)被广泛应用,更大量的对宇宙空间和自然界的感知数据被生产出来。数据生产的方式变得多种多样,数据增长速度远远高于计算机技术进步的速度。电子商务(简称电商)、社交网络、自媒体等平台所有用户生产的数据就是人类行为信息化的结果。此外,网络空间自身也在生产数据(例如计算机病毒的传播、数据的大量副本和备份等)[10]。
数据积累到一定规模后形成数据资源[11]。“一定规模”是数据资源的要求,没有达到“一定规模”的数据不能称之为数据资源。在信息化早期,只有少数人、少数实体、少数工作实施了信息化,积累的数据规模不够大,数据并不能形成资源。但当今社会,信息化的广度和深度都达到了相当高的水平,数据就成为资源。以个人数据为例,一个人的身份数据不能被称为数据资源,但是一个城市所有居民的身份数据却是很重要的数据资源[8]。
1.2.2 各领域产生的数据
随着信息化的不断深入,国家、机构、企业积累的数据已经越来越多,逐步形成数据资源。在各行各业的工作开展过程中,数据被不断地生产出来。政务活动生产了大量政府数据资源;科学研究过程生产了科学数据资源;经济社会运行过程生产了农业、金融、交通等数据资源;人们的日常生活生产了个人数据资源等。
(1)政府数据资源
政府数据资源是最重要也是数量占比最大的数据资源,与国计民生关系密切,价值密度高。政府数据资源大多来自履行管理国家事务、开展政府业务及管理各项公共事务的过程中所积累的政府内部和外部的相关数据。政府数据资源主要包括政府政务活动所形成的政务数据资源和由政府资金支持而形成的公共数据资源,如国家致力于建设的自然人数据库、法人数据库、空间地理数据库和宏观经济数据库,国家统计数据、海关数据等国民经济数据资源,民生数据、社会行为数据等公共社会数据资源[12]。
(2)科学数据资源
科学数据资源是最基本、最活跃的科技资源,更是推动经济社会发展的重要基础和工具。科学数据主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。如世界各国都在利用卫星、望远镜等开展太空探测、地球勘探等,收集宇宙、大气、地球等自然数据,形成自然数据资源;人类基因组计划所产生的生命数据资源;国家建设的国家地球系统科学数据中心、国家气象科学数据中心等平台所形成的科学数据资源等。
(3)农业数据资源
农业数据资源主要指农业或涉农领域产生和使用的数据,主要包括种植业、林业、畜牧业、渔业等农业领域的数据资源,以及农业环境与资料、农业生产、农业市场等相关领域的数据资源。如种植业的类别和品种、生产环境、病虫害和自然灾害、生产灌溉等种植业数据资源;食品加工类型、质量安全监管、服务等农产品加工数据资源;中国农业信息网、中国农业科技信息网等农业信息网站的数据资源;世界农业科技发展动态数据库、农业科技项目数据库、中国国家农作物种质资源数据库等涉农数据库的数据资源等[13]。
(4)金融数据资源
金融数据资源主要是指金融行业及相关领域生产和使用的经济数据资源,主要包括传统金融行业和互联网金融的数据资源,以及与金融行业相关的数据资源等[14]。如实时行情数据、历史金融数据、统计数据、新闻资讯等证券期货数据资源;银行交易系统数据、业务处理采集数据、银行网站数据等银行业数据资源;保单、理赔单、电话营销录音、车险投保者驾驶违章记录数据等保险业数据资源;电子商务行为、各种缴费交易数据等交易数据资源;区域经济数据、商品贸易数据、财政税收数据等相关数据资源。
(5)交通数据资源
交通数据资源主要由交通行业运行和管理直接产生的数据、与城市交通相关的行业和领域导入的数据,以及来自公众互动的交通状况数据构成,主要产
生于交通基础设施本身、交通系统的运行以及交通业务管理中的各种应用[15]。如线圈、摄像头等各类交通设施产生的数据;车载 GPS产生的车辆位置信息数据;气象、环境、人口、规划、移动通信等交通相关行业导入的数据;公众通过微博、微信、论坛、广播电台等提供的与交通状况相关的文字、图片、音视频等数据。
(6)医疗数据资源
医疗数据资源是医生对患者开展诊疗、治疗,以及开展某种疾病研究或相关医疗事宜所产生和使用的数据,主要包括临床医疗数据资源、非临床医疗数据资源、医疗相关领域数据资源等[16]。如包括患者基本数据、入出转数据、诊断/治疗/处方、临床笔记等内容的电子病历数据资源;由 X线检查、CT、B超、胃镜肠镜、血管造影等形成的医学影像数据资源;转录组学数据、蛋白质组学数据、代谢组学数据、癌症基因组学数据、肠道微生物组学数据等生物组学数据资源;文献典籍数据、药学数据、医疗事务数据、医保索赔数据等各类医疗数据资源。
(7)个人数据资源
个人数据资源主要是由人们日常生活中的各种活动和行为产生的数据。随着存储技术的不断更新,人们可以在TB级别的固定硬盘、GB级别的U盘或 TB级别的移动硬盘等存储设备中存储大量的文档资料、数码照片、家庭视频以及收集到的其他数据,这些都是个人数据资源。
1.2.3 数据资源开发利用
现如今,各行各业都在不停地使用数据并产生新的数据,社会的运转越来越依赖于数据,人类的行为以数据的形式不断地被记录在网络空间中。数据成为一种全新的资源,其重要程度越来越凸显,在 21 世纪将超过石油、煤炭、矿产等天然资源,成为最重要的人类资源之一。
对数据资源的开发利用构成了当前的大数据热潮。对数据资源进行开发利用,挖掘其价值,甚至将其转化成数据资产,逐渐成为人类的新需求。从早期的数据仓
库和数据挖掘技术的提出,到决策支持系统和商业智能的应用,都是在进行数据资源的开发利用工作。直到大数据的出现,数据资源的开发利用工作从量变发展到了质变:数据开发成为一个新的领域或行业[10]。
数据资源开发利用对一个国家经济发展、社会治理、人民生活都会产生重大影响。对网络空间数据资源的占领、开发和利用必将成为未来国家政治战略竞争 之所在。
当前,数据资源的开发利用普遍滞后于网络基础设施和应用系统的建设,人们对数据资源保护不力、开发不足、利用不够,对数据资源的特性和用途不甚了解,缺乏合适的技术对数据资源进行开发利用。
为了提高数据资源的开发利用水平,把握网络空间的战略主动,首先要建设可开发的数据资源和数据储备,并对其做好保护。反倾销诉讼、铁矿石谈判、汇率问题、节能减排、碳关税谈判等重大国际政治、经济事务,无一不依靠数据说话,要将网络空间中的数据开发出来,为国家政治、经济服务。其次,掌握好数据科学技术。数据资源开发利用是未来产业的制高点,掌握数据科学技术就是掌握未来经济,数据产业是战略型新兴产业,发展数据产业可以产生巨大的经济效益和社会效益,使国家从“国民经济与社会信息化战略”转向“国家大数据 战略”。