【干货】郑磊:开放数据的价值与进展

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

演讲全文:

我首先把基本概念先讲一下,然后重点将开放数据的实践,尤其是上海刚举办的SODA大赛,整个组织过程我都在参与,可以介绍一下这方面的情况。


首先看看开放数据是什么?现在在理论界和实践界,还没有完全说清楚“政府信息公开”、“开放政府数据”、“信息共享”等概念之间的差别。今天我重点讲一下政府开放数据和政府信息公开的差别。


第一个最大的差别是开放数据要把数据开放到底层的、原始的数据,而传统的政府信息公开是公开经过加工和分析的信息,甚至是一些文件。



第二个区别是政府信息公开最主要的目的是保证公众的知情权,更多是政治和行政上的责任,要让公众知道政府在做什么,然后参与和监督;而开放数据的主要原因是由于政府在履行行政职责的过程中采集了大量的数据。


这些数据原来只放在政府自己的后台,现在这些数据要不仅政府自己用,也要开放给社会来开发利用,推动大数据时代的到来。所以开放政府数据更多是要保障公众对政府数据的利用。


下面举几个例子,美国最早通过《信息自由法》来推动信息公开,第一张USAspeding.gov是关于财政数据的公开,第二张recovery.gov是美国金融危机后七千亿美元救市计划的公开,你可以看到加州和纽约州投的钱比较多,点开地图上的每一个点,会告诉你这个地方多少钱,给到哪些机构,已经花了多少钱,创造了多少工作机会等等。



下面这个是关于空气质量数据的公开,你可以看到全美实时的空气质量情况,绿色的空气质量比较好,黄色的有一点问题,红色的就是有毒了。中国近些年北京上海也开展了类似的环境信息公开工作。




但是,以上所举的这些例子都不叫政府开放数据,这些叫政府信息公开。因为在这些网站上并不能下载数据集进行深度的挖掘利用。


在这些网站上只能看到和知道数据,只能这样一条一条地查询,但不能把这些数据集拿走。所以这些网站还是在信息公开的层面,提供的是信息查询服务,还不是政府数据开放。




上面是DATA.GOV,有美国联邦政府十几万个数据集可以下载,这样才是开放数据。还有英国的DATA.GOV.U也是,我们这周五还跟他们交流过经验。




在这张表上,横向是从知情到利用,纵向是从信息层到数据层。开放政府数据在右上角,要开放到数据层,并且保证社会对数据的利用。政府信息公开是为了保障知情权,开放的是信息层。


一些政府网站上也发布了一些数据,但这就像政府在大门上贴出一张告示,说这就是政府的数据分析结果,而政府数据开放是政府打开一个门,说这里面的数据,你们可以拿去用。


过去还提过政府信息资源再利用,这和开放数据的差别是数据资源只给自己指定的公司用,但这可能涉及到数据资源权利寻租的问题。开放数据应该是如果你把数据给了A,就也可以给B,只要B也满足了基本条件。




真正的开放数据要满足以上这些标准。数据是完整的、原始的、一手的、及时的,可获取的,有一个平台可以让我下载,而不是我私下里找你要,例如DATA.GOV这样的平台。


开放数据是非歧视、非私有的,产权上来说这些数据属于公共资源,并不属于某个政府部门,而是属于社会的公共资源。免授权,获取过程中不再需要填一系列表格协议,就可以到网上下载,美国政府开放的数据我们中国人也可以去下载。




在跟英国开放数据研究院的交流中他们也提到,开放与封闭数据并不是非一即零的关系,中间有一个过渡阶段,从完全封闭到完全开放中间有一个过渡阶段,有些是有限度的开放,有一些是授权的开放。


为什么要开放数据?


我们现在都在说数据是石油、是金矿 。我们把数据比作一种底层的资源,他是原始素材,开放给社会以后,社会对这些数据进一步地挖掘、利用、开发,产生各种应用或者是提供决策支持,创造出商业价值和社会价值。


就好比把底层的米开放以后,可以做成各种各样的饭,加工做饭的过程由社会和市场来完成,用的是他们自己的钱,来满足各种各样的需求。过去是数据层和应用开发层都由政府来完成,就是政府的数据,由政府自己来开发成一个个应用。


但是如果这些数据不涉及到机密的话,政府为什么要自己来开发?开发出来的产品用户体验能比市场开发的更好吗?能满足各种精细化的需求吗?众口难调的问题怎么解决?再接下来,有足够的钱来推广吗?政府的人力财力精力可以做出一个极致化的应用吗?过去都是自己辛苦开发,做出来了老百姓还不满意,吃力不讨好,那不如把数据开放出来,让市场和社会来开发。




这样一来,政府的治理模式就发生变化了,过去都是自己做,现在是政府开放数据,社会开发利用数据,两者形成一个开放式的、合作共创的模式,这也是创新2.0的思维。所以,总结起来可以说,开放数据能助力经济增长,走向创新驱动,提升公共服务,推动大众创业。


2013年美国GIQ期刊的主编马里兰大学的教授Bertot就说:“大数据建立在开放数据的基础上”,不然一个个都是信息孤岛、数据孤岛,怎么可能带来大数据时代?在这种情况下,政府先把自己的数据开放出来,可以引领大数据时代的到来。


那么开放数据难在哪里?


 第一,数据在哪里?有些政府部门对自己有什么样的数据资源并不完全了解,所以先要把清单整理出来。有时候你问他要数据,他说我没有,其实他是不知道他有,因为每个部门都是一条线,这个条线不知道哪条线有什么数据。


第二,能不能开放?涉及到国家安全和隐私就不能开放,但是中间有很多模糊地带,不容易判定。


第三,愿不愿意开放?可能出于部门利益不愿意开放,或者是有些政府部门认为这些数据非常专业,拿出去以后他们看得懂吗?他们会用吗?他们有兴趣吗?有这种想法。


第四,数据好不好?数据质量有没有问题?数据的清洗、脱敏等等。


第五,有没有这个能力开放数据?开放数据对政府部门来说是一个新的挑战,过去没有做过这样的经验。哪个部门管?有没有编制?有没有人?有没有这样的技能?所以体制机制和能力建设都要跟上。


开放数据就是一种服务,是有风险的,一旦没有做好,数据出现质量问题,被用错了,还会涉及到责任,搞不好他们回过头来告政府。这样政府部门就会觉得不做不错,多做多错,少做少错。反正没有说一定要开放,那我就观望,先看看别的地方怎么做。





我国开放数据的现状如何?北京和上海在2012年推出平台。今年我们选了七个有代表性的地方做了一个评估。看看开放数据到底做得怎么样,这些数据我们都已经发表过了,今天就只简单说一下。



评估包括数据层和平台层。各地平均公开了278个数据集。数据总量上看武汉是全国第一,但是武汉可机读的数据只有一半,另外一半基本是PDF格式,不利于社会对数据的利用,不是真正的数据开放。




开放的数据中86.25%是静态数据,甚至没有按照自己的承诺更新,只有17.21%按承诺在更新。只有无锡、海曙明确保障数据的永久免费,没有“现阶段”字眼。没有一个地方明确赋予对数据进行增值利用和分享的权力。


在数据下载过程中也遇到一些壁垒,能不能在平台上提出数据请求,就是我需要什么数据,还能让别人也看见。目前只有宁波海曙的数据请求是完全开放的。





平台层整体来说交互便捷性还比较差,缺乏高质量数据应用展示,沟通交流缺乏便捷性。



上海数据开放的整体思路是未来三年以正面清单的模式,要求各部门按照清单开放数据,既有数量要求、又有质量要求,还有格式要求。三年后,则采用负面清单的思维。除了明确不能开放的,其他都要开放。


然而,开放政府数据本身不会直接产生价值,只有政府开放了数据并被社会充分地利用,才会产生价值。所以政府数据开放出来之后,政府还需要做很多事情,来推动社会利用这些数据,生怕他们利用不充分。所以就搞了很多大赛。纽约搞了一个大赛叫Big APPs。


今年上海经信委协调交通委,一共开放了1TB的数据,也组织了一个大赛,名称很好玩,叫SODA大赛。当我们把Shanghai Open Data Apps这几个词的首字母放在一起的时候,正好就是SODA,就是苏打水的意思。


这正符合开放数据的理念。政府的数据就像封在瓶子里的苏打水,关着瓶盖的时候看上去悄无声息,但只要你把瓶子一打开,嘭的一声,数据的能量就迸发出来了。


这个瓶子的logo是我当天晚上画了一个构思草图发到组委会的群里面,后来专业的设计师给画出来了。在SODA百强派对的时候,真的找来一个大瓶的香槟酒,上面写着SODA,嘭的一声把瓶子打开,意思就是数据开放了。




最后来参赛的队伍的数量超出组织方自己的想象,主办方开始预计有两百个团队就不错了,到方案截止前,组委会跟评委们说,不得了,我们评委要很辛苦了,一共有五百多个方案交上来。一半是上海的,还有一半是来自上海以外,北京16%,广东6%,其他省4%,还有国外的团队。


在世界上,一个城市一下子开放这么大的数据集也是很轰动的事情,所以很多都过来参加这个比赛。最后选出了一百个方案进入复赛。




上礼拜SODA组委会开了复盘会庆祝一下。这个大赛的评委会是开放的,我们并没有开过几次正式的组委会会议,但是每天都深更半夜还在群里面讨论问题,反而讨论出了很多非常好的建议。


用的是一种互联网的方式,平等开放的模式来组织大赛。甚至有学生的创业公司参与了大赛的组织工作。这是大赛当时的一些照片,决赛的时候来了两百多人。15支团队进入决赛进行路演,最后得大奖的是交大的团队,我当时也担任评委。


最后交通委的领导上来发言,他说,本来我已经准备了一个文字稿,但现在我决定脱稿讲。他主要讲了几点:第一,大开眼界,还是要依靠科技创新;第二,大受启发,智慧在民间。第三,把这15个团队都请到交通委和相关处室对接,想办法让这些创意落地。


最后他还说,可惜这次我们开放的数据还不够多,如果再多放一点数据,你们可能能做出更好的方案。这个大赛办完,交通委真正体会到了开放数据的价值,就有了内生的开放数据的动力。


SODA大赛只是刚刚开始,如果只是一个大赛,那就太简单了,接下来就是怎么让这些方案落地,对社会产生价值,反过来,政府就会更愿意开放数据。大赛的第一波效果是征集了创新应用,聚集了一大批人才,对公众和政府部门普及教育开放数据的理念。


第二波效果就是给城市提供更好的服务,推动创新创业,推动产业发展,最终产生一系列的社会价值和商业价值,同时又对政府提出了新的数据需求,政府更知道社会需要那些具体的数据,也看到了给社会带来的价值,就更有意愿开放。




我们跟英国开放数据研究院交流时,他们说在英国也搞了类似的大赛,他们做了一个投入产出的研究,结果是这个大赛每投一块钱,回报是10倍。


一些政府部门在考虑把数据卖钱,免费地开放数据对我有没有直接回报,我为什么不能收一笔钱呢?


但是另外一种思维是,你开放出去之后,一波两波三波的效应能产生更大的价值,最后政府的税收会上升,比你直接卖数据能产生有更大的回报,世界银行的专家来复旦交流时也支持这个观点。




所以,数据开放可以两条路同时走,一种是自上而下、由内而外的推动开放,通过内部的压力。另一种是像SODA大赛这样由外而内、自下而上的拉动,让政府部门看到开放数据后产生的效果,意识到开放数据对政府部门自身也有好处,从而变成内生的动力,效果甚至会自上而下地推动更好。


所以,要充分调动数据的开发利用者,通过SODA大会这样的活动,在加上产业孵化,让开放数据这件事滚动起来,产生价值,让政府有更大的意愿开放。


总体来说,开放数据到产生价值是一个非常复杂的动态的过程,涉及到各种利益相关方,有各种因果关系和利益关系,要使整个循环成为一个正循环,而不是成为一个堵塞的循环,就要让这件事产生效果,让政府更愿意开放。产生更好的效果了,也就更愿意开放,开发者也会更积极得来利用数据。


政府要有一个生态系统的思维。开放数据不是甲乙方外包关系、购买服务的关系,政府要做的工作是培育围绕开放数据的生态系统。


最后呼应一下早上张楠老师讲的观点,安全和数据开放不是一对矛盾,他们是一个相辅相成的过程。


信息政策里有一个理论框架:


第一个原则是保管的原则,把数据的安全和质量问题解决好;


第二个原则是利用的原则,不仅要把数据管好,更要把数据充分利用起来,产生价值。两个原则互为补充,只有管好了数据,才能产生信任、降低风险,有利于更好地利用数据,反过来,数据利用得越好,创造的价值越大,政府就对你越信任,也更愿意推动利用。


安全有保障,才会更愿意开放,利用得越好,政府也更愿意花力气去提升数据质量、保证安全。如果安全出了风险,利用就进行不下去了,数据不利用了,管理数据也就没有价值了。


这就好比图书馆的工作不仅是为了管理书,管理的目的是为了让书被更好得利用,发挥它的价值。而只有管好书,才能更好地把书借出去,书借出去了,还要能管得好,收得回来,这两个是相辅相成的关系。开放和安全也是这样的关系


谢谢大家!


原文发布时间为:2017-03-14

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
人工智能 安全 搜索推荐
2024年度云治理企业成熟度发展报告解读(四)支柱结构关系及案例分享
从组织、成本、稳定、安全到性能、效率这样一个路径,我们一定要有策略地完成各个支柱之间的互相配合。云治理不仅仅是技术问题,而是需要多团队合作和管理策略的制定。
2024年度云治理企业成熟度发展报告解读(四)支柱结构关系及案例分享
|
敏捷开发 运维 数据可视化
相较于Scrum, 我更推崇Kanban,帮助团队建立价值交付流,识别瓶颈
最近在学习实践精益Kanban方法,结合自己团队实践Srum的经历,整理些资料二者的差异。相较于Scrum, 我更推崇精益Kaban。
223 0
相较于Scrum, 我更推崇Kanban,帮助团队建立价值交付流,识别瓶颈
|
存储 安全 物联网
【AIGC 视角】 可信计算调研报告
【AIGC 视角】 可信计算调研报告
237 0
|
人工智能 供应链 小程序
数智洞察 | 构建新型共治模式,打造开放与生态和谐的平台价值定位
编者按: 在移动互联网时代,人与手机合一,手机与移动互联合一,实现了个人身份的数字化。数亿人聚集在互联网上,形成了一个个巨大的平台。平台经济已经成为共识,无论是政府还是企业,都提出要构建平台。然而,什么是平台?平台的本质属性和基本特征又是什么?本期内容将从平台思维带你探寻平台的价值与定位问题。 本文约3104字,建议阅读时间8分钟。
301 0
|
机器学习/深度学习 传感器 存储
设计人工智能产品:技术可能性、用户合意性、商业可行性
随着机器学习逐渐成为数字化产品的主流,了解机器学习的基础知识对许多产品经理来说变得越来越重要。今天的产品人员是一个相当多样化的群体。对于一些人来说,重点主要放在用户体验上(例如,如果主要价值主张围绕着一个杀手级的 UI),而另一些人已经在设计需要深入理解数据和代码的产品。 理解机器学习对于频谱的两端都是必要的——只是原因略有不同。对于以 UI 为中心的产品和 PM,模糊逻辑和机器学习功能将从根本上改变用户与产品的交互方式。因此,这些特征的呈现变得非常重要。另一方面,管理 API 或技术平台的产品经理会更关心 AI 算法是如何集成的。
|
机器学习/深度学习 边缘计算 分布式计算
元宇宙六大技术,后续的技术趋势 !
元宇宙六大技术,后续的技术趋势 !
272 0
元宇宙六大技术,后续的技术趋势 !
|
人工智能 边缘计算 物联网
Gartner 发布 2019 年十大战略性技术趋势:自主设备、增强分析、AI 驱动的开发、量子计算等
Gartner公司今天列出了企业组织在2019年需要探究的几大战略性技术趋势。分析师在Gartner研讨会/ ITxpo大会期间介绍了他们的调查结果。 Gartner对战略性技术趋势的定义是:具有巨大颠覆性潜力的趋势,开始从新兴状态蜕变为更广泛的影响和使用,或者是快速发展的趋势,很大的波动性有望在未来五年达到临界点。
2126 0
|
搜索推荐 大数据
风剑分享 | 只有数据最懂公司的痛点,指导企业决策走向
在2018中国大数据高峰论坛上,数澜科技CEO风剑分享了对数据资产化的理解、大数据平台的建设、大数据落地过程中的挑战,以及数据应用在未来的机遇与挑战。具体全文摘录如下: 一、什么是数据资产化 “数据资产化是数澜一直秉持的概念并持续在做的事情”。