数据太多、太乱、太杂?你需要这样一套数据治理流程

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数据作为机器学习的基础,从 GB、TB 到 PB 已经增长了无数倍,现在大一点的业务场景,没有 TB 级数据都提供不了高效的体验。那么数据怎么治理才好,怎样与模型、算力结合才算妙?在本文中,我们将看看什么是 HAO 数据治理模型,看看公安数据到底是如何规范处理的。

最近,明略科技与合肥工业大学的研究者在中文核心期刊《软件学报》上发表了一篇关于数据治理的论文。它介绍了数据治理的概念,并对数据清洗、交换和集成等进行具体分析,从而提出了一种新型大数据治理框架「HAO 治理」模型。


论文地址:http://www.jos.org.cn/1000-9825/5854.htm


微信图片_20211202010106.jpg


数据治理真的很重要?


智能是基于数据的,而数据又是基于大量人工与工程努力的,所以人工智能还有相当一部分「人工」。数据收集需要人工确定数据源,或者手动写爬虫;数据处理则需要观察数据,并手动写整个清洗过程;数据标注则要根据具体业务,看看怎样给数据打标签才好。


这些过程都会耗费大量精力,有时候如果处理路径不明确,甚至会导致重复或冗余的人力工作。因此事先确定一个具体的处理流程,明确数据该怎样治理、算力该怎样分配、模型又该如何部署,那么整个开发过程能减少很多人力成本与工程负担。


作为论文一作,明略科技集团首席科学家、明略科学院院长吴信东教授表示:「数据治理的本质是对一个机构(企业或政府部门)的数据从收集融合到分析管理和利用进行评估、指导和监督的过程,通过提供数据服务创造价值。数据治理可对数据战略资产进行管理,通过从收集汇聚到处理应用的一套治理机制,提高数据质量,实现数据共享和价值最大化。


既然那么重要,就需要一套框架,就像 DL 模型最开始都是手动写,但成为主流后就需要 TensforFlow 这样的框架。吴信东等研究者详细分析了数据治理中的各种模块,并表示数据治理从来都不是一次性的程序,每个组织必须采取许多小的、可实现的、可衡量的步骤来实现长期目标。


因此,如果我们想降低数据治理的成本,最优地调配数据、模型及算力,那么就需要一个成熟的框架。如下我们重点介绍「HAO 治理」模型的概念与过程,并从公安数据治理的角度看看该框架在实际应用中是什么样的。


什么是 HAO 治理模型


前面介绍过数据治理是从数据收集到应用处理的管理机制,而框架则规定了有关数据的流程、原则或定义。比如说我们现在有一堆图像数据集,那么从图像源、图像采集到图像储存,我们先要确定数据的接入方式是什么。


随后,因为这些图像不止用于一个任务,所以需要确定标准化的形式,并做一些清洗与预处理;当然,标注还是根据任务来确定的。最后,这些图像数据还应该统一地提供给不同的模型与任务,从而构建不同的服务,这一部分也是该统一管理的。


而明略科技设计的「HAO 治理」模型会从大数据开始,为「HI」(人类智能)、「AI」(人工智能)和「OI」(组织智能)三者协同的智能提供数据治理支持。下面举个 HAO 的例子:


微信图片_20211202010113.jpg


其中 HAO 智能的输入不仅有各种传感器,还有人类的主观感受。后面的雾计算会分析所有信息,并将机器运算/推理结果与人的分析相匹配,形成概率化与规则化有机协调的优化判断。人类、机器和组织三者结合,它们的数据与判断相互协助,这样才能最大化地利用数据的能力。


整个人机协同系统是非常复杂的,那么这就要求有一套成熟的治理框架来规范数据与算力的分配。


这样的系统应该需要满足很多要求,例如全面的数据接入机制、标准化的数据处理流程、多元集成的数据组织模式和多种数据服务模式。其中数据服务模式可以向使用者提供查询检索和比对排序等基础数据服务,也可以面向专业人员提供挖掘分析和专家建模等智能数据服务。


如下展示了 HAO 智能的蓝图设计,它主要包括感知、认知和行动三部分。


微信图片_20211202010118.jpg


总体而言,整个过程会从大数据环境开始,并根据大数据、人类专家系统、人工智能和组织智能生成对应的知识图谱,从而将大知识应用到人机协同中。此外,「HAO 治理」是一种实用系统,因此也就要求模块化数据源和治理功能,它需要更快速与灵活地搭建新特性。


「HAO 治理」模型是什么样的


「HAO 治理」模型主要包含三部分,即数据接入模块、数据治理模块和数据服务模块。其中数据接入需要采集、汇聚等操作,从而构建异质的大数据。其次数据治理模块主要对数据进行一系列预处理过程,从而构建更加容易建模的数据。最后的数据服务模块则通过分析与加工,为外部提供各种新的能力。


1. 数据接入


一般而言,现实世界的数据主要分为结构化或非结构化,而这些图像、文本等各种数据都应该进行统一的接入与管理。对于数据源之上的接入模块,它主要完成不同类型的抽取汇聚任务配置,包括异构数据库之间数据传输汇聚,不同类型的文件数据和服务接口间相互传输。


微信图片_20211202010122.jpg


2. 数据治理


接入后的数据都是比较杂乱的,它本身带了一些冗余或缺失的信息。因此,数据治理模块主要包括对汇聚库中的数据进行数据清洗和数据规范,必要时进行主题划分和数据关联,然后进行数据集成。治理完成后的数据汇聚到数据共享中心中,并用于后续的建模。


微信图片_20211202010126.jpg


其中我们比较熟悉的就是数据清洗,它会对数据进行审查和校验,从而过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换。


3. 数据服务


数据治理的目标是提供一个可直接使用且方便管理的数据库,它最终还是要为各种模型提供学习基础。而模型,最终也是要提供各种智能服务,因此这一部分也应该得到规范的管理。


基于数据治理模块,数据服务模块最开始会根据数据共享中心构建知识图谱,它不仅向使用者提供模型管理、模型探索、数据探索等数据服务,同时还向专业人员提供挖掘分析、专家建模等智能数据服务。


微信图片_20211202010130.jpg


其中核心的知识图谱是由节点和边组成的巨型知识网络,节点代表实体、边代表实体之间的关系,每个实体 还通过键值对来描述实体的内在特性。领域专家们可以根据知识图谱中的实体和关系等核心数据进行建模,并进行高层次的数据挖掘分析和加工。


统一数据接入、治理和服务模块,就能构造出「HAO 治理」模型,它规定了最一般的处理流程。吴信东教授说:「只有通过多维感知,利用数据治理技术,将高质量的数据连接起来,才能进行知识的智能抽取,基于知识图谱、暴力挖掘对知识进行多维度分析推理,构建决策模型,完成从数字化、网络化到智能化的跃迁。


公安的数据治理应该是什么样的


上面介绍了「HAO 治理」模型的主要概念,那么它应用到现实世界中又是怎么样的,它能进一步降低人工成本吗?在论文的最后一部分,研究者以公安数据治理为例,介绍了整体流程与框架到底是什么样的。


先来看张图,如下图 13 描述的是公安数据治理框架,平台架构主要包括数据存储、数据计算、数据管理、数据应用四部分。它将不同的数据按照应用分到了不同的主题或专题库,例如常住人口专题库或企业信息专题库等等。与此同时,不同的数据也能最终组成知识图谱,相当于构建了一种庞大的背景知识。


微信图片_20211202010134.jpg


看上去这张图非常复杂,但其实也就分为储存、计算、管理和应用四部分。


  • 数据存储:基于分布式的大数据存储平台;
  • 数据计算:这是数据治理的最主要部分,包括数据的探查、提取、清洗、转换、集成等;
  • 数据管理:对集成后的数据统一维护与管理;
  • 数据应用:这是数据价值最直接的体现,我们可以通过自然语言处理等技术,对数据进行深度分析。


从上图我们可以看到整个工作流大概从预处理到分析挖掘分为 7 个部分,其中不同的部分会调用不同的数据知识库,最后的分析挖掘则是我们希望获得的结果。


在整个流程中,我们除了对数据进行各种操作与处理外,还要创建新的知识表示方式。例如将数据按照一定主题进行关联来构造一个模型,公安数据治理分别以人、物、时空、组织、虚拟标识、 案件等作为主题来建立模型。


微信图片_20211202010148.jpg


除此之外,知识图谱按照目标数据可以分为实体、事件、关系三种类型,从而建立数据之间的关联关系。如下在公安场景中,我们能以人为中心实体构建的一个简单的知识图谱。其中我们需要建立人与电话号码所属关系、人与护照所属关系及人与人的关系等等。


微信图片_20211202010155.jpg


以上就是公安数据治理的简要结构了,吴信东教授说:「明略科技提出这样的数据治理框架,希望通过数据在线、分析洞察、闭环智能「三步走」战略,构建从感知到认知再到行动的反馈闭环,将人类、机器、组织的智能三位一体,为企业和组织提供具有分析决策能力的高阶人工智能应用。



文为机器之心原创,转载请联系本公众号获得授权

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
数据采集 存储 分布式计算
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
20664 2
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
|
1月前
|
存储 数据采集 监控
CDGA\如何建立实现数据治理的效率价值框架:实践案例解析
数据治理是一个持续优化的过程。组织应建立健全的监督与评估机制,定期对数据治理工作进行评估,发现问题及时整改。广东药科大学通过数据全景图和数据监控大屏,实现了对数据治理成果的动态、多维度呈现与监控,为科学管理决策提供了有力支撑。
|
1月前
|
数据采集 存储 监控
数据治理怎么做才是价值最大化的呢?
在数据驱动时代,数据成为企业的核心资产,其治理直接影响决策效率、创新能力和市场竞争力。数据治理是一项系统工程,涵盖策略、流程和技术,确保数据准确、一致、安全、可访问且合规,从而最大化价值。为实现这一目标,企业需明确治理战略、建立治理架构、制定质量标准、强化安全保护、推动数据文化,并持续优化与创新。这些综合措施将充分释放数据潜力,推动企业发展。
|
3月前
|
存储 数据采集 SQL
数据平台问题之数据资产管理混乱的问题如何解决
数据平台问题之数据资产管理混乱的问题如何解决
|
3月前
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
|
3月前
|
存储 网络安全 文件存储
就软件研发问题之在创建数据流动时配置的问题如何解决
就软件研发问题之在创建数据流动时配置的问题如何解决
|
3月前
|
对象存储
就软件研发问题之创建和管理数据流动及其任务的问题如何解决
就软件研发问题之创建和管理数据流动及其任务的问题如何解决
|
3月前
|
存储 弹性计算 文件存储
就软件研发问题之创建数据流动任务的问题如何解决
就软件研发问题之创建数据流动任务的问题如何解决
|
4月前
|
运维 监控 安全
软件研发核心问题之用在需求拆解时明确监控范围与形式的问题如何解决
软件研发核心问题之用在需求拆解时明确监控范围与形式的问题如何解决
|
4月前
|
数据采集 运维 监控
软件研发核心问题之用户行为采集容易出的问题如何解决
软件研发核心问题之用户行为采集容易出的问题如何解决