非结构化数据怎么盘点?

简介: 非结构化数据怎么盘点?

非结构化数据

一句话简单解释:数据分为结构化数据、半结构化数据和非结构化数据。结构化数据就是能按照数据模型表示的结构存储的数据,具体表现就是数据库中的表、字段、值。非结构化数据就是无法提炼成数据模型,以结构化存储的数据,具体表现就是各种文档、视频、音频。半结构化数据就是其中部分信息可以进行结构化存储,部分信息只能“揉成一团”放进开放性的字段里存储的数据,具体表现就是各种日志。其实在企业中,结构化数据的占比很少,半结构化和非结构化数据的占比会更多。之前看过一份文件里有一个测算结果,结构化数据只占不到20%。


非结构化数据管理

现在我们叫“非结构化数据”,其实之前早就有,叫“档案数据”。对应的组织叫做“档案馆”。档案馆最初的工作就是进行各类纸质文档、影像资料的管理。具体工作就是进行档案分类、编目、档案管理等工作。

之后档案馆升级,变成“电子档案馆”,对应的工作也就变成了把纸质文件电子化、电子文档智能化、文档内容知识化等工作。核心工作流程不变,依然是各类档案的分类、编目、管理工作。只不过从原来纸质的文档/录像带变成电子文档/视频文件,由粗笨的档案柜,升级为知识管理系统/文档管理系统。档案管理工作一般分为两部分:1、档案管理,包括档案收集、档案分类、档案整理、档案鉴定、档案保管、档案编目等工作。2、档案利用,包括档案检索、档案统计、档案信息开发、档案编辑和研究(比如档案文献编纂)、档案提供利用等工作。换到非结构化数据管理,其实都是一样一样的。把“档案”换成“非结构化数据”就行了。


非结构化数据分类

跟结构化数据盘点一样,非结构化数据盘点也是需要分类进行的。否则胡子眉毛一把抓,压根就不知道谁是爹谁是妈。我们通常会分为文档、视频、音频、图片等类型,但是更具体的分类还得跟业务场景挂钩,比如:

这么分是不是就具体多了?跟业务结合更紧密了?当然,也有更具体的,比如这个:

这是中石油档案资源分类体系(2020版)的非结构化数据分类标准,是不是就更清晰了?与结构化数据分类一样,非结构化数据也可以是多分类的。但是一般梳理的时候会按某一个固定分类进行盘点,然后再按业务需要进行多分类。否则就乱套了。


非结构化数据盘点

非结构化数据都散落在各个文件系统中,甚至是以原始物理文件存储的,盘点的时候就不能像结构化数据一样,直接连接数据库读元数据进行盘点。那怎么进行呢?首先,盘点肯定还是围绕元数据进行的。既然不能用系统,就只能人工了。大致流程是这样的:1、梳理业务流程;2、整理业务输入;3、整理业务输出(非结构化数据就出来了 )4、整理非结构化数据元数据,并形成标准;5、补充业务信息(包括编码、业务分类、业务含义、摘要、标签等);6、编制成册最终的成果就是类似这样的一套表格,包括文档名称、编号、业务所需各类信息。

以上就是今天分享的内容,如果你有进一步的信息和方案,还请多多跟老彭交流,谢谢你了!

相关文章
|
6月前
|
自然语言处理 中间件 测试技术
中间件数据格式结构化数据与非结构化数据之间的转换
中间件数据格式结构化数据与非结构化数据之间的转换
100 3
|
6月前
|
分布式计算
如何在MapReduce中处理非结构化数据?
如何在MapReduce中处理非结构化数据?
75 0
|
存储 自然语言处理 文字识别
非结构化数据怎么治理?
非结构化数据怎么治理?
|
存储 XML 容灾
结构化数据,我该拿你怎么办?
结构化数据,我该拿你怎么办?
152 0
|
存储 监控 负载均衡
海量非结构化数据存储中的小对象合并技术
随着人工智能, IoT 等技术的推广普及,智能监控,智能制造等新兴领域蓬勃发展,涌现出了越来越多的海量非结构化数据存储需求。
结构化总结与结构化思考之《金字塔原理》总结
无论是一次简单的汇报还是对于自己的学习过的知识的进行相应的总结,我们的信息要素总是没有经过结构化总结的。你是否会困惑一场汇报或者一些知识的总结该如何进行,或者你已经有了一些总结,但是还并不知道该如何结构化的组织它们,这个时候就可以采用金字塔结构进行组织。
结构化总结与结构化思考之《金字塔原理》总结
|
数据采集 存储 机器学习/深度学习
大数据数据采集的数据类型的非结构化数据
在大数据领域中,数据采集是一个至关重要的环节。除了结构化数据外,非结构化数据也是大数据采集的重要组成部分之一。本文将介绍大数据数据采集中的非结构化数据类型,以及如何对这些数据进行有效的采集和处理。
769 0
|
数据采集 存储 XML
大数据数据采集的数据类型的半结构化数据
在大数据采集中,我们会遇到各种类型的数据,其中半结构化数据是一种常见的数据类型。本文将介绍什么是半结构化数据以及如何有效地采集和处理该类型的数据。
577 0
|
存储 数据采集 SQL
大数据数据采集的数据类型的结构化数据
在大数据领域,数据采集是一个非常重要的环节,数据类型的结构化程度直接影响到后续的数据分析和挖掘工作。本文将介绍大数据数据采集中的结构化数据类型,以及如何对这些数据进行有效的采集和处理。
508 0
|
机器学习/深度学习 人工智能 监控
使用 Arize 监控非结构化数据(Arize)
为什么要 Embeddings? 我们认为 Embeddings 是人工智能和深度学习的基础。Embeddings 是深度学习模型如何表示模型所学习的结构、映射、层次结构和流形的核心。它们将现代深度学习从transformers扩展到编码器、解码器、自动编码器、推荐引擎、矩阵分解、SVD、图神经网络和生成模型——它们无处不在。