ODPS在某公共数据项目上的实践

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。

1 什么是公共数据?

  • 1.公共数据:是指各级行政机关以及具有公共管理和服务职能的事业单位,在依法履行职责过程中获得的各类数据资源。
  • 2.公共数据的范围:包括党政机关、公共服务单位、企事业单位
  • 3.ODPS对比Hadoop的优势
    image.png

2 项目方案

2.1 项目建设目标

参考《数字化改革概论》第2章“一体化智能化公共数据平台”的定义,项目计划建设具体包括六个方面:

  • 一是数据目录,按照“一套目录、两级建设、三级运营”,构建统一的全域数据资源目录体系,推进全省数据资源目录分级维护、动态管理、协同应用,做到一数一源、同步更新。
  • 二是数据归集,主要釆取数据交换、开通“数据高铁”两大方式。通过规范公共数据交换平台建设,促进跨层级、跨部门数据互联互通,通过推进“数据高铁”建设,高效及时归集数据。
  • 三是数据治理,通过“一数一源一标准”建设、存量数据常态化治理和共享数据快速响应治理,让数据可用、好用、易用,为数据共享和数据开放提供高质量数据供给。
  • 四是基础库,统一建设人口综合库、法人综合库、信用信息库、可信电子证照库、自然资源与空间地理信息库五大基础库,为全省各类应用提供基础数据支撑。
  • 五是数据共享,省、市、县三级公共平台主要提供接口共享和批量共享两种共享方式。其中接口共享满足针对特定对象调用特定数据,批量共享满足大数据分析、比对的场景需求。
  • 六是数据开放,分为无条件开放、受限开放、禁止开放三大类。针对无条件开放数据,提供数据集下载、接口访问等方式;针对受限开放数据,通过开放域系统“可用不可见”环境实现安全合规开放。

    2.2 项目子系统规划

    为了满足项目的规划,项目上建设十个子系统去覆盖全业务
    image.png

    2.3 十大子系统的数据流向

    image.png

3 项目实施

3.1 充分利用odps和datawork的能力,支持数据归集、数据治理和数据共享

image.png

3.2 利用DataWorks的数据集成模块,打通数据归集链路。

大部分业务数据的不是实时数据,允许n+1甚至n+2的延迟,所以dataworks+odps构建的数据同步通道可以满足业务归集链路。
image.png

3.3 利用DataWorks的开发模块,日常数据治理

3.3 利用MaxCompute的数据保护模型,落实数据安全管理要求

3.3.1 开启数据保护模式

set security.ProjectProtection=true;
-设置ProjectProtection规则:数据只能流入,不能流出,外表不受限。
set project IDENTIFY_EXTERNAL_TABLE_WRITE_AS_DATALEAK=true;
-设置Project数据不能通过外部表方式流出,即不能通过外部表写入外部存储源。

3.3.2 授信空间共享(批量数据共享)

use porject_01
add trustedproject porject_02
-设置后将允许porject_01中的所有数据流出到porject_02

3.3.3 Package共享

用于少量数据发布的时候,按表为单位在数仓之间进行数据共享。

  创建Package并添加资源
  use prj1
  create package datamining
  -- 创建一个Package。
  add resource datamining.jar to package datamining
  -- 添加资源到Package。
  add table sampletable to package datamining
  -- 添加Table到Package。
  allow project prj2 to install package datamining
  -- 将Package分享给项目空间prj2。

  安装Package到目标项目空间
  use prj2
  install package prj1.datamining
  -- 安装一个Package。
  describe package prj1.datamining
  -- 查看Package中的资源列表。

  目标空间可以通过ACL授权给指定用户
  use prj2
  grant Read on package prj1.datamining to user aliyun$xxs@aliyun.com
  -- 授权使用Package。

3.4 启用数据保护伞功能,进行数据脱敏

image.png

4 项目成果与展望

4.1 业务数据价值通过治理,实现了提升

  • 多部门间通过数据共享,提升了业务数据质量
  • 辅助了线上业务简化办理,群众少填表
  • 支持城市治理决策,针对一个事件可以汇总多部门数据综合决策
  • 运行无数据泄漏事件

    4.2 展望

  • 后续公共数据的治理与大模型技术相结合,提升治理效率并提供更多层次数据产品
  • 技术提升后,进一步提升安全性,真正实现数据可用不可见
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
12天前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
79 14
|
2月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
82 0
|
2月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
13天前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
84 14
|
22天前
|
机器学习/深度学习 传感器 监控
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
吃得安心靠数据?聊聊用大数据盯紧咱们的餐桌安全
57 1
|
22天前
|
数据采集 自动驾驶 机器人
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
78 1
|
2月前
|
机器学习/深度学习 监控 大数据
数据当“安全带”:金融市场如何用大数据玩转风险控制?
数据当“安全带”:金融市场如何用大数据玩转风险控制?
89 10
|
2月前
|
机器学习/深度学习 自然语言处理 监控
大数据如何影响新兴市场投资决策?——数据才是真正的风向标
大数据如何影响新兴市场投资决策?——数据才是真正的风向标
58 3
|
2月前
|
机器学习/深度学习 传感器 大数据
大数据真能治堵吗?聊聊交通行业用数据疏通“城市血管”
大数据真能治堵吗?聊聊交通行业用数据疏通“城市血管”
113 4
|
2月前
|
机器学习/深度学习 人工智能 大数据
从数据到决策:政府如何用大数据把事儿办得更明白?
从数据到决策:政府如何用大数据把事儿办得更明白?
75 0

热门文章

最新文章