电子政务专家、复旦郑教授:政府开放数据的价值与挑战

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:


在7月8日举行的2016DAMS中国数据资产管理峰会上,中国信息协会电子政务专委会委员、复旦大学副教授郑磊分享了《开放数据的价值与挑战》,重点讲述作为公共资产的数据,也就是政府部门与公共部门所掌握的数据开放问题。本文根据其分享整理而成。


本文将包括以下内容:

  • 什么是开放数据?

  • 开放什么数据?

  • 为什么要开放公共数据?

  • 开放数据面临的挑战


一、什么是开放数据?


说到开放数据的价值,我们先要有一个清晰的界定。什么样的数据才是开放数据? 


首先,我们经常会在一些政府网站看到这类数据:以图表形式呈现出来的数据,也就是把数据本身,做成柱状图、饼状图同时配上一些文字解读的形式公开出来。而有的时候,我们也会看到,在某些公开数据的网站上,数据是以大段的文字和文件的形式或者是以PDF格式的表单开放出来,并能在这类网站上通过单条查询得到的一些数据。比如,你想要查询贵州当地某一家企业的情况,只要搜索企业的名称,便可以立马获取它的相关情况。


但是,我们必须明确:以上所述的数据都不是开放数据!


因为它们开放的不是原始数据,只是把数据分析之后的结果以文字、图标或者单条查询的形式开放出来,这只是单纯的信息公开,我们并没有拿到数据集。



根据世界银行的定义,开放数据是“可以被任何人、出于任何目的、自由的利用和再利用”的,而根据美国开放数据宪章,只有“具备必要的技术和法律特性,从而能被任何人、在任何时间和任何地点进行自由利用、再利用和分发的电子数据”才是开放数据。


下面解读一下这两个定义代表什么意思。



首先,要将数据开放进行到底层,也就是数据层。这张数据挖掘图相信大家都比较清楚,在图中,从原料到数据,它本身并没有特殊的含义。只有当我们对它进行挖掘、分析,发现一些规律并将它总结为信息、知识,最后指导组织或个人、领导或职员怎么做,才能变成支持我们行动的价值体现。


传统的政府信息公开主要是开放到中间这一层,政府只把某一些行业、领域的一些信息结果做成图表告诉我们,而没有把原始数据给出来。当然,政府在开放数据当中,会避免一些涉及到安全、商业机密、个人隐私的部分。



接下来,我们看到美国的开放宪章中的两个标准:一是技术性开放,即以可机读的标准格式来开放,像PDF就不是机器可读,至少像Excel或者CSD格式,再往上走更好的是关联数据的格式,以便于下载、利用。二是法律性开放,要明确授权这些数据能够进行商业和非商业的利用,或者是再利用,这样才能在技术上保障,法律上授权你的使用。


在国外,一般数据开放平台上都满足这样的条件,当然还有更细节的标准,比如国际开放数据上的8个原则:

首先,数据集必须是完整的,除非涉及到国家安全、商业机密或者个人隐私;数据要是一手的,不是分析后的图表;数据要是及时的,需要不断更新;可获取的,要有一个公开的平台来获取;可机读的,上文已解释过了;非歧视的,不能说你和我相熟,我就给A而不给B,这不是真正的市场公平竞争;非专属性的,目的是降低数据使用的门槛;免授权,即法律上的开放。


在非专属性这一点上,我们看到还有关于开放格式星级标准图:



同理,开放数据宪章中也有同样的原则:



那说了这么多,数据开放到底跟过去政府的信息公开有什么差别?


我们从两个维度出发。


纵向维度上,上面叫数据层,下面叫信息层;横向维度上,一个叫知情权,一个叫使用权。传统的信息公开,主要是公开到信息层面,经过加工的,没有把原数据提供出来,主要是为了保障知情权,让老百姓知道,从而能够监控政府,参与决策。


但是,我们必须认清,一个公司现在最大的价值不在于人、不在于开发的软件,而在于数据。对政府来说也一样,政府曾经以为信息化过程中最大的价值是硬件、投入的机房和电脑,后来发现是开发的这些软件。这两年也慢慢意识到采集留存下来的这些数据可能才是最大的资源,是整个信息化中最大的财富。当这些信息不仅可以自己使用,还能开放给社会,让社会来对它进行加工,就能使政府的数据采之于民,还之于民。


当然,这里面还有一些政府的定向在里面,比如请一家公司进来,只把数据给这家公司来开发,这种情况下不是充分的利用,因为它是违反非歧视的原则。大数据时代其实体现了公平正义,这对各地来说,不论原先的技术怎样,机会都是公平的。


所以,总结一下:信息开放数据开放,数据发布数据开放,数据查询数据开放,定向利用数据开放。


二、开放什么数据?


我们以一张图来展示。首先,对于信息和数据,我们也用两个维度来分析。


第一个维度,这些数据应该是公开的,不受限制的流通,从而有利于社会经济的发展。但是,还是有部分数据必须是被封闭、受限制的,从而不会涉及到个人的隐私和商业机密,保护知识产权、保护国家安全。


第二个维度,我们必须清楚这些数据是怎样一种资产,今天我们讲数据资产管理,首先得搞清楚这些数据是私人的还是公共的。用这个维度来说,我们就会发现在这四个象限中会填入不同的信息管制方法或政策。在图中,上面部分是作为公共资产的数据,下面是作为市场流通的数据,这张图可能还是比较复杂,我们把它简化一下,使它与今天的主题更相关:


同样的两个维度,也是不受限制的。是公共资产还是作为可交易的产品?在左上角,我们认为政府和公共服务所采集的数据是一种公共产品,因为这些产品是使用纳税人的钱采集的。


受限制的是哪些呢?就是之前一直强调过的国家安全、商业机密、个人隐私,这一部分信息是既不能共享也不能交易,你不能把国家交易、机密交出去,不然就是国家间谍了。这个处于象限右边。


同理,中间的叫数据共享,政府内部的跨部门的共享,并不对社会开放,因为它可能仍然会有敏感性,可是跨部门中有关商业、税务、市场监控等这部分的数据还是可以共享的,能为公众提供更好的服务。


上面这三种类型都是把数据作为一种公共产品,属于公共数据或政府数据。


象限的左下角,数据是可交易的商品,它主要是指一些商业的数据,同时我们认定它是可以流转的。这一部分的数据交易或交换,通过钱的形式交易或者免费交换,而这件事情是交由市场来负责,市场自会决定用什么价格、怎么交换,这也体现了市场在数据资源的配置中的决定作用。


但是政府仍然要做一件事情,那就是市场监管。你不能一家公司把我的数据卖给另一家人,而我什么都不知道,我完全没有任何知情权和授权,这种情况下,就是这些交易过程中会涉及到一些第三方的个人隐私。你不能A公司把C公司的机密卖给B公司,这些都是必须监管,以防对社会造成危害。总之,除了这个底线之外,剩下的让给市场去做。


因此,我们可以得知:1、数据共享数据开放,因为共享是小范围的内部的,而数据开放是对全社会无歧视的开放。2、数据交易数据开放,因为数据交易主要是私人产品的开放。


三、为什么要开放公共数据?


第一,有句话叫“开放数据是大数据的基本”,目前大量的数据依然是掌握在政府手里,我们不说80%,至少应该保有50-60%的社会基础核心数据掌握在政府手上。这些政府数据如果没有开放出来给社会充分利用,大数据时代也是不会充分到来的。


在国外,大数据时代到来的时候,从来都不是靠发政策、纲要,例如美国做的第一件事便是把数据拿出来,于是大部分企业就去利用这些数据,形成一些数据咨询公司、数据产业,再带动商业的开发利用。

在保证它的自由利用之后,我们看到,其实加工过程就是从数据到信息到知识的一个收缩过程,但反过来,如果把数据作为一种原料来看,当把原料开放给社会后,不同的人有不同的视角,从不同的需求出发,会开发出不同的应用,并创造出无穷无尽的价值,反之,是一个释放能量的过程。


这些能量又释放出哪些效能呢?


从图中可知,既可以带来商业创新,也能带来公共服务,还有商业服务上的众筹众创。当政府开放这些数据后,大家一起开发所产生的应用远远会超过政府的想象。我们也可以把这个过程看做是以政府数据为原料发起的一整个社会的众筹众创,其最终目的是服务于商业和公共服务。合作参与、社会发展、经济增长,尤其是对一些数据行业或者基于数据驱动的这些行业。提高决策质量,透明政府,服务提升、产业转型,政府效能提高,这方面既有商业价值也有社会价值。


最后,我们要把数据当做一种基础设施来认识,所以在大数据时代,公共数据的开放从本质上来讲也是在提供一种公共产品。



通过合作共创,作为供给侧的政府把数据开放出来,而社会作为利用端,利用这些数据,共同来解决社会的问题,并创造价值。在这中间,有的人做整合,有的人做清洗,有的人做买卖,有的人做加工、增值利用等等。当你创造的价值越多,政府就会更受鼓舞,更愿意开放更多的数据,从而形成一个比较好的循环。因此,这个过程也是一个生态圈的事情,而不仅仅是政策的事情。


四、开放公共数据的挑战

第一个是政府或者公共服务愿不愿意开放。因为数据是权利,数据是利益,对部门来说,留在自己手里当然能带来更大的价值,可对社会、个体来说,却是利益损失。

第二个是能不能开放。虽然原则上讲得很清楚,但是细节上到底这个数据是不是国家秘密、商业机密、个人隐私,关于它的界定现在还比较模糊。这个方面需要更深入地探讨,即使在欧洲、美国,定义也是不同的。

第三个是能力够不够。这涉及到一个部门本身的体制、机制、人员能力和资金,也就是说有没有一个专门数据管理的部门,这不仅仅是开发的问题。就像以前我们有CIO,而现在有了CTO,开始把数据作为一种资产来管理,这件事情在企业中可能是一个新的概念,对政府来说更是一个全新的理念,因为目前政府中对数据是一种非常粗放式的管理。

第四个挑战来源于一种文化认知,即“多一事不如少一事”,我都已经很忙了,哪有精力再去管理数据这些事情,这种不积极的观念需要组织自己去改进文化建设,加强动力与激励。

第五个是数据在哪里。这是个典型的数据资产管理问题。我们内部的数据常常是碎片化的,散落在各个部门,各个条线。内部都没有实现共享,就更不用说整合这些更一步的问题了。


第六个是数据好不好。与数据本身的质量、安全、格式与标准,适用性紧密相关,在过去我们都没有考虑到这些问题。

因此,要从政策层、管理层和数据层加强公共数据资产的管理。在这六个问题中,愿不愿、能不能是政策问题,想不想、能力够不够是属于管理层的问题,数据的标准、格式、数据在哪里是数据层的问题,这三层是政府在数据资产管理时尤其要考虑的三大方面。


最后总结一下,现在社会上对政府的数据有大量的需求,可是目前释放出来的高价值数据还太少。开放数据是数据的供给侧改革,如果真正推动大数据时代的到来,就必须从政策层、管理层和数据层三方面共同发力,加强公共数据的管理,进一步扩大公共数据的开放化。


讲师介绍  郑磊

  • 中国信息协会电子政务专业委员会专家咨询委员会委员、全国政务大厅服务标准化工作组成员、上海市政务数据资源开放共享推进专家组成员、Government Information Quarterly杂志(SSCI)编委、《电子政务》期刊编委。

  • 复旦大学国际关系与公共事务学院副教授、院长助理、数字与移动治理实验室主任、MPA中心副主任、公共决策实验室副主任。

  • 纽约州立大学Albany校区(SUNY Albany) 洛克菲勒公共事务与政策学院 公共管理与政策博士。


本文来自云栖社区合作伙伴"DBAplus",原文发布时间:2016-07-14

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
人工智能 运维 监控
【年终特辑】看见科技创新力量 洞见时代创业精神—碳中和—拓普索尔:立足碳中和目标做智慧网管系统解决方案
【年终特辑】看见科技创新力量 洞见时代创业精神—碳中和—拓普索尔:立足碳中和目标做智慧网管系统解决方案