MongoDB - 数据模型
附:【概念对比】
SQL关系型数据库 | MongoDB |
数据库 | 数据库 |
表 | 集合(collection) |
行 | 文档(document) |
列/字段 | 字段(field) |
索引 | 索引(index) |
主键 | _id(默认索引字段) |
视图(view) | 视图(view) |
表连接(table joins) | 聚合操作($lookup) |
MongoDB集合中所有的文档都有一个唯一的_id 字段作为集合的主键 。如果创建一个没有_id字段的新文档,MongoDB 会自动创建该字段并分配一个唯一的 BSON ObjectId 。 |
1. BSON:二进制版本的JSON
MongoDB在文档存储、命令协议上都采用一种类似于JSON的格式作为编解码格式。这种格式称之为BSON。BSON是魏晋至版本的JSON。相比于JSON基于文本进行编码,BSON的主要特点在于他是采用二进制编码。此外,BSOB还提供了一些扩展的数据类型,如日期、二进制数据等等。这些数据类型请参见下表:
数据类型 | 别名 | 说明 | 编号 |
Min key | minKey | 表示一个最小值 |
-1 |
Max key | maxKey | 表示一个最大值 |
127 |
Double | double | 双精度浮点数 |
1 |
String | string | 字符串(UTF-8) |
2 |
Object | object | 内嵌文档 |
3 |
Array | array | 数组或者列表 |
4 |
Binary data | binData | 二进制数据 |
5 |
ObjectId | objectId | 对象ID,用于创建文档的ID |
7 |
Boolean | bool | 布尔值 |
8 |
Data | data | 日期时间,对应于UNIX时间戳的毫秒数(64位) |
9 |
Null | null | 表示空值 |
10 |
Regular Expression | regex | 正则表达式 |
11 |
JavaScript code with scope | javascript | JavaScript 代码 |
15 |
JavaScript | javascriptWithScope | 带作用域的 JavaScript 代码 |
15 |
32-bit integer | int | 32位的整型数值 |
16 |
Timestamp | timestamp | 时间戳 |
17 |
64-bit-integer | long | 64位整型数据 |
18 |
Decimal128 | decimal | 高精度数值,用于精确计算 |
19 |
2. objectId
ObjectIds 很小,可能是唯一的,生成速度快,并且有序。ObjectId 值的长度为 12 个字节,包括:
- 一个 4 字节的时间戳值,代表 ObjectId 的创建,以 Unix 纪元以来的秒数为单位
- 一个 5 字节的随机值
- 一个 3 字节递增计数器,初始化为随机值
虽然 BSON 格式本身是小端格式,但时间戳和 计数器 值是大端格式,最重要的字节首先出现在字节序列中。
在 MongoDB 中,存储在集合中的每个文档都需要一个唯一的 _id
字段作为主键
。如果插入的文档省略了该_id
字段,MongoDB 驱动程序会自动为该字段生成一个ObjectId
_id
。
3. 字符串
BSON 字符串是 UTF-8。通常,在序列化和反序列化 BSON 时,每种编程语言的驱动程序都会从语言的字符串格式转换为 UTF-8。这使得可以轻松地将大多数国际字符存储在 BSON 字符串中。 [ 1 ]此外,MongoDB $regex查询在正则表达式字符串中支持 UTF-8。
4. 日期
BSON Date 是一个 64 位整数,表示自 Unix 纪元(1970 年 1 月 1 日)以来的毫秒数。这导致过去和未来大约 2.9 亿年的可表示日期范围。
5. 时间戳
BSON有一个特殊的时间戳类型内部MongoDB的使用, 与常规相关的日期
类型不同。此内部时间戳类型是一个 64 位值,其中:
- 最重要的 32 位是一个
time_t
值(自 Unix 纪元以来的秒数) - 最低有效 32 位是
ordinal
给定秒内操作的增量。
虽然 BSON 格式是 little-endian,因此首先存储最低有效位,但mongod
实例总是在所有平台上的time_t
值之前比较值ordinal
,而不管字节序如何。
在单个mongod
实例中,时间戳值始终是唯一的。