院士谈大数据时代的国家治理(上)

简介: 2月26日上午,在人民大学召开了一场以“开放政府数据”为题的研讨会,会议由中国人民大学社会转型与社会管理协同创新中心主办,由中国人民大学原常务副校长、社会转型与社会管理协同创新中心主任冯慧玲主持。
0.jpg


226日上午,在人民大学召开了一场以“开放政府数据”为题的研讨会,会议由中国人民大学社会转型与社会管理协同创新中心主办,由中国人民大学原常务副校长、社会转型与社会管理协同创新中心主任冯慧玲主持。中国人民大学校长陈雨露会见与会嘉宾。中国工程院院士、中国计算学会大数据专家委员会主任李国杰做了题为“数据共享——大数据时代国家治理体系现代化的前提”的精彩演讲。以下文字摘自李院士演讲。

 

本来是重点讲一些怎样评价一个城市或一个国家数据开放做的好不好的标准,后来想一下这个问题还是第二位的,我觉得最大的一个问题还是理念问题

我们国家在十八届三中全会上,有一个提法,“全面深化改革的总目标是完善和发展中国特色社会主义制度,推进国家治理体系和治理能力现代化。”这个提法是很高贵的,以前很少用这样的话来写我们的目标。其中最关键的两个字是“治理”,这个“治理”是很多搞管理的同志都讨论过的,和过去讲的治国啊、统治啊、管理都有联系,但是还是有比较大的区别的。这里的“治理”是强调多元主体的管理,民主的,参与式、互动式的管理,而不是单一主体管理,不一定是从上到下单线的管理,所以国家管理者、广大群众、各组织、各单位都是主体之一,从过去的一个主体变为多主体,从过去单向的从上到下管理变成各个方向协调的治理。所以作为国家的治理者之一,作为政府的官员们应该具备大数据的思维方式,现在讲的比较多的互联网思维,大数据思维,计算思维等等,都是一些新的思维和理念。通过对数据的整理分析,预测民众的下一步公共服务需求,以便提供更加智能与高效率的管理和服务,促进国家和社会发展。

一份行业报告显示,英国政府通过高效的使用公共大数据的技术每年可以节省330亿英镑,相当域英国人每人每年节省500英镑(约每人每年节约5000人民币)。

另一件事也很惊人,美国哈佛大学肯尼迪学院的学生到清华大学经管学院去交流。清华让他们分析中国政府管的那些事儿。然后问肯尼迪学院的学生“你们猜猜中国中央政府有多少官员?”有人猜200万,很多人猜400万,还有人猜1000万。实际上我们国家中央政府才5万人!这说明什么问题?这些人不是小学生中学生,他们是肯尼迪政府学院的,在他们看来,中国这些事需要几百万一千万人来管理。五万人管,不是说我们效率高,而是说很多该管的事情没管起来,政府治理不到位治大国要有大智慧,智慧来源应该是数据,而不是主观臆断。我们要反对官僚主义形式主义。大数据时代数据也不仅仅是工具,也是战略,也是世界观,也是文化。大数据将带来一场社会变革,特别是公共管理与公共服务领域的变革。今天发布的新书《智慧政府》里面就有这句话,我附和下这个观点。

人是数据总和的概念。大家知道现在谷歌这个公司,还有瑞士的公司,他们现在招人,基本上不需要你填简历表。因为他们从你的平时参加什么会,交流什么情况,他从网上都可以搜索到你的这些东西,他基本上把你这个人的水平、在什么档次上,就刻画出来了。他有一个虚拟的人才库。所以他需要招什么人的时候,都去这个库里去找。在大数据时代,在数据构成的世界,一切社会关系都可以用数据表示,人是相关数据的总和

每种数据来源都有一定的局限性。只有融合集成各方面的原始数据(所谓“带毛”的数据),才能反应事物的全貌。事物的本质和规律是隐藏在元素数据的相互关联之中。这就是相关数据的总和,各方的关系都能反映出来。不同的数据可能角度不同,但是描述的是同一件事情。政府的数据可能更客观事实,网上的数据可能是主观的民意。对同一个问题,不同的数据可以反映不同的互补信息,增加了解。这就是大数据它的作用,它是集成各方面的信息。

我早年和钱老(注:钱学森)有过接触,钱老提倡“大成智慧学”,把这个翻译成Wisdom in Cyberspace90年代的时候他就是这么翻译的。“必集大成,才得智慧”,一定要集。有了数据、信息,才能出智慧。必须是很多很多数据。大数据并不是说数据量很大就行,而是说各方面的数据,种类很多,很杂,在一起,总量很大,才叫大数据。所以这个不同数据是个复杂系统。大数据在复杂系统中看起来大多是些“零金碎玉”没什么逻辑,很杂乱的,它不一定能用现在的科学技术能够解释,所以有些东西属于钱老讲的前沿科学,大数据现在还是个不成熟的科学。

解放战争时期,我们国家搞土地革命,打土豪分田地。让人们耕者有其田。孙中山那句话怎么讲的,民主革命,有了这一条我们的解放战争才能得到胜利。改革开放初期,凤阳农民搞承包,也是耕者有其田,才取得农业发展,带动全国改革开放。这里面都有一个前提,就是属于老百姓的财产,让他有一个管理权,他自己去管

现在是大数据时代,作为公共财产的政府数据,本质上属于全国人民,如果让这些数据回到人民群众中去,当然要在保障国家安全、保护个人隐私与企业商业秘密的前提下,其作用就像当年实行的“耕者有其田”一样,是生产关系的一个大变革也会促进生产力的大解放。

现在问题是很多人不承认这个理念,不赞成“耕者有其田”。比如一些部门拿国家的钱,老百姓税收的钱采集上数据后,就认为这些数据归他们各自部门所有。实际上这个数据的所有权应属于老百姓。像互联网公司,比如百度、腾讯虽然拥有很多数据,但是一般不会免费开放,只给自己公司用。

目前支持大数据产业的数据来源主要靠政府。有些人担心数据开放后有什么用?其实不用担心政府开放的数据没有人用,开放数据后,众多的中小企业会创造出各种各样的数据应用,形成过去没有的生数据态链。像纽约,数据公开后,2年时间内,就有500多家企业来做数据相关服务。

刚刚讲的“政府开发数据”、“公共部门信息”和“大数据”还不完全相同,关系如下图所示:

0                

“政府开放数据”应该占“公共部门信息”的大部分,“大数据”是个公共概念,不单指政府数据,还有企业数据。比如在华大基因,这家公司已经把测试个人基因图谱的费用降到1000美元以下,以前要几万甚至几十万美元。一个人的基因测序加上基因分析数据大概为1TB,为100万人做基因测序的数据量就达到1000PB1EB)。纽约市的开放数据平台不到两年,已经有2090组数据上线,新产生的移动应用已有几百个。到2016年,中关村要培育500家大数据企业,建成10个以上行业大数据应用平台,带动产业规模超过1万亿元。之前我参加贵州省论证会,2020年贵州省的大数据产业到4500亿。虽然我不建议使用“带动”这个词,因为这个“带动”是无法考核的,所以我建议国家做规划时,少用“带动”这个词。但不管怎么说,能体现数量级的概念,能够激励信心。

政府共享的数据分为三类:

(一)  面向操作业务的信息共享。这种共享是为办事人员设计的,办理银行贷款时要查信用数据库;办理出入境手续时要查局级干部名单表;办理税务业务时要查上家的增值税。现在政府部门出台的政策,讲的开放数据,主要指这部分。不管是广州、上海、宁波,讲的开放数据,大部分指这类,是政府各部门之间办公流程所需要的数据。

(二)  面向管理的信息共享。使用这种共享数据的大多为各项业务的管理者。管理者需要及时看到业务各方面的运行状态,便于及时控制、调整及记录数据以备查

(三)  面向研究和决策的信息共享。使用这种共享主要是政策研究人员、主管官员和企业领导。这种信息共享的作用是发现知识、总结规律,从数据中发现新知识、新问题,制定新政策,更需要大数据

目前我们还处在阶段一,从一到三还有很长的路要走。

 

国外提出的政府开放数据的原则:

1.完整性:没有隐私,安全或特权的限制

2.原始性:数据收集来源有最高的粒度级别不是聚合或被修改的形式。

3.及时性:数据能根据需要尽快获得。

4.可获取性:数据能提供给最广泛的用户和最广泛的用途。

5.可处理性:数据结构合理,允许机器自动处理。

6.非歧视性:数据可用于任何人,没有注册登记的要求。

7.非专有性(Non-proprietary):不受独家控制

8.非许可性(License-free):数据不受任何版权、专利、商标或商业秘密控制

这些更多的指“知情权”,群众、公民有了解信息的权利。

 


原文发布时间为:2014-02-28


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
67 0
|
4月前
|
人工智能 安全 大数据
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
|
5月前
|
大数据
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
|
11月前
|
分布式计算 DataWorks 关系型数据库
带你读《全链路数据治理-全域数据集成》之22:1. 背景信息
带你读《全链路数据治理-全域数据集成》之22:1. 背景信息
169 0
|
11月前
带你读《全链路数据治理-全域数据集成》之23:2. 使用限制
带你读《全链路数据治理-全域数据集成》之23:2. 使用限制
135 0
|
11月前
|
分布式计算 DataWorks 关系型数据库
带你读《全链路数据治理-全域数据集成》之24:3. 准备工作:添加数据源
带你读《全链路数据治理-全域数据集成》之24:3. 准备工作:添加数据源
157 0
|
11月前
|
SQL 分布式计算 DataWorks
带你读《全链路数据治理-全域数据集成》之25:4. 配置任务
带你读《全链路数据治理-全域数据集成》之25:4. 配置任务
201 1
|
11月前
|
运维 DataWorks 调度
带你读《全链路数据治理-全域数据集成》之26:5. 提交执行任务
带你读《全链路数据治理-全域数据集成》之26:5. 提交执行任务
165 0
|
11月前
|
存储 分布式计算 运维
带你读《全链路数据治理-全域数据集成》之32:1. 背景信息
带你读《全链路数据治理-全域数据集成》之32:1. 背景信息
155 0
|
11月前
|
分布式计算 DataWorks MaxCompute
带你读《全链路数据治理-全域数据集成》之33:2. 使用限制
带你读《全链路数据治理-全域数据集成》之33:2. 使用限制
121 0

热门文章

最新文章