1 什么是公共数据?
- 1.公共数据:是指各级行政机关以及具有公共管理和服务职能的事业单位,在依法履行职责过程中获得的各类数据资源。
- 2.公共数据的范围:包括党政机关、公共服务单位、企事业单位
- 3.ODPS对比Hadoop的优势
2 项目方案
2.1 项目建设目标
参考《数字化改革概论》第2章“一体化智能化公共数据平台”的定义,项目计划建设具体包括六个方面:
- 一是数据目录,按照“一套目录、两级建设、三级运营”,构建统一的全域数据资源目录体系,推进全省数据资源目录分级维护、动态管理、协同应用,做到一数一源、同步更新。
- 二是数据归集,主要釆取数据交换、开通“数据高铁”两大方式。通过规范公共数据交换平台建设,促进跨层级、跨部门数据互联互通,通过推进“数据高铁”建设,高效及时归集数据。
- 三是数据治理,通过“一数一源一标准”建设、存量数据常态化治理和共享数据快速响应治理,让数据可用、好用、易用,为数据共享和数据开放提供高质量数据供给。
- 四是基础库,统一建设人口综合库、法人综合库、信用信息库、可信电子证照库、自然资源与空间地理信息库五大基础库,为全省各类应用提供基础数据支撑。
- 五是数据共享,省、市、县三级公共平台主要提供接口共享和批量共享两种共享方式。其中接口共享满足针对特定对象调用特定数据,批量共享满足大数据分析、比对的场景需求。
- 六是数据开放,分为无条件开放、受限开放、禁止开放三大类。针对无条件开放数据,提供数据集下载、接口访问等方式;针对受限开放数据,通过开放域系统“可用不可见”环境实现安全合规开放。
2.2 项目子系统规划
为了满足项目的规划,项目上建设十个子系统去覆盖全业务2.3 十大子系统的数据流向
3 项目实施
3.1 充分利用odps和datawork的能力,支持数据归集、数据治理和数据共享
3.2 利用DataWorks的数据集成模块,打通数据归集链路。
大部分业务数据的不是实时数据,允许n+1甚至n+2的延迟,所以dataworks+odps构建的数据同步通道可以满足业务归集链路。
3.3 利用DataWorks的开发模块,日常数据治理
3.3 利用MaxCompute的数据保护模型,落实数据安全管理要求
3.3.1 开启数据保护模式
set security.ProjectProtection=true;
-设置ProjectProtection规则:数据只能流入,不能流出,外表不受限。
set project IDENTIFY_EXTERNAL_TABLE_WRITE_AS_DATALEAK=true;
-设置Project数据不能通过外部表方式流出,即不能通过外部表写入外部存储源。
3.3.2 授信空间共享(批量数据共享)
use porject_01
add trustedproject porject_02
-设置后将允许porject_01中的所有数据流出到porject_02
3.3.3 Package共享
用于少量数据发布的时候,按表为单位在数仓之间进行数据共享。
创建Package并添加资源
use prj1
create package datamining
-- 创建一个Package。
add resource datamining.jar to package datamining
-- 添加资源到Package。
add table sampletable to package datamining
-- 添加Table到Package。
allow project prj2 to install package datamining
-- 将Package分享给项目空间prj2。
安装Package到目标项目空间
use prj2
install package prj1.datamining
-- 安装一个Package。
describe package prj1.datamining
-- 查看Package中的资源列表。
目标空间可以通过ACL授权给指定用户
use prj2
grant Read on package prj1.datamining to user aliyun$xxs@aliyun.com
-- 授权使用Package。
3.4 启用数据保护伞功能,进行数据脱敏
4 项目成果与展望
4.1 业务数据价值通过治理,实现了提升
- 多部门间通过数据共享,提升了业务数据质量
- 辅助了线上业务简化办理,群众少填表
- 支持城市治理决策,针对一个事件可以汇总多部门数据综合决策
- 运行无数据泄漏事件
4.2 展望
- 后续公共数据的治理与大模型技术相结合,提升治理效率并提供更多层次数据产品
- 技术提升后,进一步提升安全性,真正实现数据可用不可见