结构化,半结构化,非结构化数据总结

简介: Hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。在学习Hive之前 我们先了解下结构化数据,半结构化数据以及非结构化数据的区别。

前言:


  • Hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。在学习Hive之前 我们先了解下结构化数据,半结构化数据以及非结构化数据的区别。


1.结构化数据


  • 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:

id      name    age     gender
1       lyh     12      male
2       liangyh 13      female
3       liang   18      male
  • 所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。但是,显然,它的扩展性不好(比如,我希望增加一个字段,怎么办?)。


2.半结构化数据


  • 半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。
    半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。
    常见的半结构数据有XML和JSON,对于对于两个XML文件,第一个可能有

<person>
    <name>A</name>
    <age>13</age>
    <gender>female</gender>
</person>


第二个可能为:

<person>
    <name>B</name>
    <gender>male</gender>
</person>


  • 从上面的例子中,属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?上面的例子中,<person>标签是树的根节点,<name>和<gender>标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。


3.非结构化数据


  • 顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。

参考:https://blog.csdn.net/liangyihuai/article/details/54864952

目录
相关文章
|
2月前
|
存储 分布式计算 自然语言处理
大数据中非结构化数据
【10月更文挑战第18天】
167 4
|
7月前
|
自然语言处理 中间件 测试技术
中间件数据格式结构化数据与非结构化数据之间的转换
中间件数据格式结构化数据与非结构化数据之间的转换
124 3
|
7月前
|
Python
结构化程序设计方法
结构化程序设计方法是一种软件开发的原则和技巧,旨在创建易于理解、维护和修改的高质量程序。它强调使用清晰的控制结构、模块化设计和数据抽象来减少程序的复杂性,从而提高程序的可靠性和效率。本文将详细介绍结构化程序设计方法的核心概念,并通过一个示例代码来展示其应用。
212 1
|
7月前
|
分布式计算
如何在MapReduce中处理非结构化数据?
如何在MapReduce中处理非结构化数据?
86 0
|
存储 数据管理 数据库
非结构化数据怎么盘点?
非结构化数据怎么盘点?
|
存储 监控 负载均衡
海量非结构化数据存储中的小对象合并技术
随着人工智能, IoT 等技术的推广普及,智能监控,智能制造等新兴领域蓬勃发展,涌现出了越来越多的海量非结构化数据存储需求。
|
存储 自然语言处理 文字识别
非结构化数据怎么治理?
非结构化数据怎么治理?
|
存储 XML 容灾
结构化数据,我该拿你怎么办?
结构化数据,我该拿你怎么办?
164 0
结构化总结与结构化思考之《金字塔原理》总结
无论是一次简单的汇报还是对于自己的学习过的知识的进行相应的总结,我们的信息要素总是没有经过结构化总结的。你是否会困惑一场汇报或者一些知识的总结该如何进行,或者你已经有了一些总结,但是还并不知道该如何结构化的组织它们,这个时候就可以采用金字塔结构进行组织。
结构化总结与结构化思考之《金字塔原理》总结
|
数据采集 存储 机器学习/深度学习
大数据数据采集的数据类型的非结构化数据
在大数据领域中,数据采集是一个至关重要的环节。除了结构化数据外,非结构化数据也是大数据采集的重要组成部分之一。本文将介绍大数据数据采集中的非结构化数据类型,以及如何对这些数据进行有效的采集和处理。
809 0