1.4.3 数据治理
大数据出现伊始,数据治理(DataGovernance,DG)就得到了重视[16]。与统治、管制不同,治理是一种由共同的目标支持的活动,这些管理活动的主体未必是政府,也不一定必须依靠国家的强制力量来实现。全球治理委员会于1995年对治理做出如下界定:治理是或公或私的个人和机构经营管理相同事务的诸多方式的总和。它是使相互冲突方或不同利益方的矛盾得以调和,并且采取联合行动的持续的过程。它有 4个特征:治理不是一套规则条例,也不是一种活动,而是一个过程;治理的建立不以支配为基础,而以调和为基础;治理同时涉及公私部门;治理并不意味着一
种正式制度,但确实有赖于持续的参与者之间的相互作用[17]。
治理也被引入商业管理领域,如公司治理。公司治理是影响公司领导、管理或控制方式的一系列过程、惯例、政策、法律和制度。
由于数据可通过互联网在全球快速、低成本地流动,且数据涉及政治、经济、社会、军事等所有方面,因此,数据治理可以分成全球数据治理、国家数据治理、政府数据治理、企业数据治理 4个层面。
• 全球数据治理重点关注数据主权、数据边境、数据跨境、域外管辖等方面,关注数据对文明交流、经贸往来的支撑作用,以形成数据全球流通和监管的规制、协议和协调机构等。
• 国家数据治理重点关注一个国家内部各类机构及个人数据的生产、质量、储备、使用、流通、安全等方面,关注数据权属、数据滥用、数据合规、数据犯罪等方面,以形成数据在全国范围内开放共享、交易流通、安全使用的规制、协议等。
• 政府数据治理重点关注政府内部数据的管理和运用、政府部门间的数据共享及绩效分配等方面,关注政府数据使用的合法性、合理性问题,已形成政府数据内部、外部使用的规制和协议。注意,政府运用大数据来提升治理能力不属于数据治理的范畴。
• 企业或机构数据治理重点关注企业内部数据的生产、质量、储备、使用、安全等方面,关注企业在使用外来数据时的合规、合法问题,以形成企业数据资源管控、绩效评估和风险管理等制度。
1.4.4 数据自治
数据自治由朱扬勇等人[18]于 2018年提出,主要用于解决数据开放共享过程中遇到的问题。
当前,绝大部分数据资源还处在封闭的状态,数据完全由数据拥有者管理。数据拥有者尽量保护系统数据不受外界侵害,不对外界开放,即数据自治是封闭式的。这有历史的原因,也有主观原因。
• 历史原因:数据是各单位在信息化过程中逐步积累的,是由单位的信息系统生产的,而信息系统是单位进行业务信息化的支撑,确保信息系统安全是信
息化建设的一项重要内容。因为信息系统是对外封闭的,所以信息系统生产的数据也是对外封闭的。
• 主观原因:数据拥有者因对数据开放的担心而不想、不敢开放数据,这主要是由制度问题导致的。数据收集、管理和维护是有成本的,数据开放也是有成本的。因此,需要理性看待“数据拥有者不愿意开放共享数据”的问题,允许数据拥有者在数据开放共享的过程中获得一定的利益。可以考虑通过建立“数据财政体系”来解决利益问题,促进数据开放共享,促进数字经济快速发展。
在技术方面,现有的数据资源管理技术(数据库管理系统、文件系统)和应用软件技术都支持封闭式的数据自治模式。封闭式的数据自治模式的问题是数据资源只能被数据拥有者使用,没有发挥出数据资源应有的价值。要更大程度地发挥数据的价值,就需要将数据资源开放出来,这也是国家大数据战略倡导数据开放共享的原因之一。
然而,当数据开放给外界后,数据拥有者可能不知道数据会被怎样使用,也不知道有哪些软件会使用数据,并且这些软件基本上是外部的。现有的数据库管理系统软件根本无法满足数据开放的应用需求,因此,需要探索新型的数据资源管理技术和数据开放模式。
数据自治开放是指数据由数据拥有者在法律框架下自行确权和管理、自行制定开放规则(所谓数据自治),然后将数据开放给使用者。数据自治开放技术要解决“如何控制数据使用者传播或滥用数据”的问题,对应的关键技术挑战包括:如何实现数据既自治又开放;如何保护数据稀缺性不丧失,同时确保数据安全和隐私。