[译] 把 UUID 或者 GUID 作为主键?你得小心啦!

本文涉及的产品
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
云数据库 RDS SQL Server,基础系列 2核4GB
简介: 本文讲的是[译] 把 UUID 或者 GUID 作为主键?你得小心啦!,最近在阅读时,一篇谈论如何扩展数据库的文章引起了我的关注 - 作者在文中建议大家使用 UUIDs(类似 GUIDs)作为数据库表的主键。
本文讲的是[译] 把 UUID 或者 GUID 作为主键?你得小心啦!,


把 UUID 或者 GUID 作为主键?你得小心啦!

没有什么会像 GUID 一样表达“用户友好”!

最近在阅读时,一篇谈论如何扩展数据库的文章引起了我的关注 - 作者在文中建议大家使用 UUIDs(类似 GUIDs)作为数据库表的主键。

UUIDs 的优点

下面列出了一些使用 UUID 作为主键比使用自增整数好的原因:

  1. 在扩展数据库的时候,当你有多个数据库包含同一段(片)数据时,比如一个顾客集,使用 UUID 意味着该 ID 在所有的数据库中是唯一标识的,而不是仅仅本数据库唯一。这保障了跨数据库迁移数据的安全。又比如,我曾在项目中把多个数据库分片合并到一个 Hadoop 集群中,也没有产生键的冲突。
  2. 在插入数据之前,你就能知道这个主键的值,这避免了一轮的数据查找,并且简化了事务的逻辑,即在你插入子记录之前,因为需要使用这个主键作为一个外键,你必须要知道这个主键的值。
  3. UUIDs 不会透露数据的信息,因此被用在 URL 中也比自增整数更安全。比如,我是编号 12345678 号顾客,那么人们就会猜测编号为 12345677 和 12345679 的顾客的存在,这就提供了一种攻击向量。(但是后面我们会看到一个更好的替代品)

UUIDs 的缺点

不要太天真了

一个基础的 UUID 大概是这个样子的: 70E2E8DE-500E-4630-B3CB-166131D35C21,它将会被视为字符串对待,比如 varchar(36) - 千万不要这么做!

你会说,“哼,才不会有人这么做呢。”

我再三考虑了下 - 就我所接手的两个大型企业级数据库来看,他们确实是那么实施的。除了 9 倍的多余开销外(比起 36 字节,整数类型只占了 4 字节),字符串在排序上也没有数字快,因为它们依赖排序规则。

在一家公司还曾发生过十分糟糕的事情,一开始他们使用 Latin-1 字符集。当我们打算转为 UTF-8 时,好几个联合索引因为太大而存不下。哦!

UUIDs 之殇

不要低估处理大到不能存储和表达的值的恼人程度。

为实际的扩展做计划

如果我们的目标是扩展,我是说真正的扩展。那么首先让我们意识到 int 类型在很多情况下是不够大的。在大约 20 亿(需要 4 字节)的时候就溢出了。然而每个数据库中我们都有远超 20 亿大小的数据存在。

因此,bigint 在某些时候才是我们真正需要的,它占 8 个字节。此外,还有其他多个策略可供选择。像是 PostgreSQL 和 SQL Server 这些数据库都有 16 字节的原生类型。

谁会介意是否是 bigint 的两倍或者 int 的四倍大小?这只是一点点字节,对吧?

规范良好的数据库中主键到处可见

如果你的数据库有良好的规范,正如我现在所在的公司一样,每一次将一个键用作外键前会先进行评估。

不单单在磁盘上,在进行 join 和 sort 时这些 key 还需要载入到内存中。内存的确越来越便宜了,但是无论磁盘还是内存它们都是有限的,并且也都不是免费的。

我们的数据库用大量的关系表来存储外键,尤其是在一对多的关系中。账户表内含有多个卡号,地址,电话号码,用户名等等。对于拥有数十亿账户的一组表中的任意一列,外键的空间开销的增长都是十分快速的。

随机数排序十分困难

另外一个问题就是碎片化 - 因为 UUIDs 是随机的,他们没有天然的生成顺序因此不能够被用于集群。这就是为什么 SQL Server 实现了一个 newsequentialid() 方法用于集群化索引的使用,这可能就是将 UUIDs 作为主键使用的正确打开方式了。其他的数据库可能也有类似的解决方案,PostgreSQL,MySQL 肯定是有的,其他的可能有。

主键永远不应该被暴露,甚至是 UUIDs

因为主键在其作用域内的唯一性,所以显然可以用作用户编号或者用在 URL 中来标志唯一页面或者记录。

千万不要!

下面我将阐明在公开环境中暴露主键是十分不好的这一观点。

正如我上面所说过的,简单的自增值的基本问题便是它们容易被猜到。僵尸网络可以利用这点不断猜测直到找到真实值。(当然如果你使用 UUIDs,它们也可以进行暴力破解,只是猜中的几率将十分低)。

理论上说试图猜中一个 UUID 可能是一件十分愚蠢的行为,然而 Microsoft 还是告诫我们不要使用 newsequentialid(),因为为了减少集群问题,它其实较为容易猜测。

我曾以为我的键绝对不会变(直到它们变了)

不在公开环境使用主键还有一个无法反驳的原因:你一旦需要改变这个键值,那么所有外在的引用就不可用了。想象一下 “404 页面无法找到”的情形。

你什么时候需要更改键值呢?真巧,我们这个星期在做数据迁移,因为在 2003 年一个公司刚起步的时候谁能想到我们现在会需要 13 个庞大的 SQL Server 数据库并且依然在持续快速增长?

永远不要说“绝不会”。我曾参与那次迁移项目,并且诸如此类的事情在我身上就发生过多次。与此相比,事先预防则更加简单。当你置身数万亿的数据之中迁移将变得更加困难。

事实上,我现在公司的场景就是为什么需要 UUIDs 的最好例子,以及为什么 UUIDs 开销巨大,为什么在公开环境中暴露主键是一个问题。

我的内部系统是对外的

我管理的 Hadoop 基础设施每晚都会接收到来自我们所有数据库的数据。该 Hadoop 系统连接到我们的 SQL Server 数据库,这没什么问题,因为这两个同属一家公司。

还有,为了避免多个数据库间的序列化键冲突,我们通过关联两个值来生成了一个假的主键,跨数据库唯一的客户编号(主键),加上它们在表内的序列号。

通过这样做我们在多年的历史用户数据之间建立了紧密且有效地永久联系。如果这些在关系数据库管理系统中的主键发生了改变,我们与之相对应的键也要进行改变,否则将会产生令人恐惧的前后不一致。

如何两全其美?内部引用用整型,外部引用用 UUIDs

有一个在多个不同场景下都有效的解决办法,简单来说就是,两者都用。(请注意:这不是一个好方法 - 请看下面我记录的 Chris 对原始博文回复)

在内部,让数据库用小而有效、数值型的序列键来管理数据关系,int 或是 bigint 皆可。

然后增加一列用于存放 UUID(可以将其设计进插入的预处理操作里)。在一个数据库自身的范围内,可以使用普通的主键和外键来管理关系。

当需要暴露一个数据的引用到外部时,即使这里的“外部”是另一个内部系统,它们也必须依赖 UUID。

这样一来,如果你需要改变内部的主键,那么你也可以确保它的影响范围在一个数据库内。(注意:正如 Chris 评论的,这点明显错了)

我们曾在另一个公司的客户数据上采用了这个策略,正是为了避免主键“易被猜测”的问题。(注意:避免不同于阻止,详见下文)。

另一种情况,我会生成了一“段”文本(例如像本篇一样的博文)用于 URL 使其更加对用户友好的。如果有冲突,那么只需追加一段哈希值。

即使作为“次级主键”(译者注:这里的次级主键指拥有主键特性用于外部引用的键),简单地使用字符串形式的 UUIDs 也是错的:我推荐使用内置的数据库机制生成 8 字节整型值。

使用整型是因为它们是高效的。另外也可将数据库实现的 UUIDs 用于无规律化外部引用,避免暴力破解。

Chris Russell 就原始博文的本节给予的回应正确地指出了两个重要的逻辑上的预警或者说是错误。第一点,即使用 UUID 代替真实的主键暴露在外,实际上也会披露很多信息,特别是在用 newsequentialid 的时候 - 不用试图用 UUIDs 来保证安全。第二点,如果所给的 schema 的关系在内部被整数键所管理,在合并两个数据库时你依然会有键冲突的问题,除非允许所有的键有两个记录存在...如果是这种情况的话,就使用 UUID。因此,在现实中,正确的解决方案可能是:你可以用 UUIDs 当做键,但是绝不要暴露他们。如何对内或是对外的事情最好还是留给像是 url 友好化处理的模块来负责,并且再(正如 Medium 所做的那样)用一个哈希值附加在尾部。感谢 Chris!

附言和感谢

感谢 Ruby Weekly(我始终在看,尽管我现在在用的是 Scala),来自 Honeybadger 公司的 Starr Horne 关于此观点的优秀文章Jeff Atwood 在 Coding Horror 上发表的总是充满幽默和智慧的文章,Stack Overflow 的联合创始人,自然还有来自 Starkoverflow 的dba.stackexchange.com 上的一个不错的问题。当然还有一篇来自 MySqlserverTeam 的非常棒的文章,另一篇来自 theBuild.com 以及我此前给过链接的 MSDN。

后记:我为什么写这篇文章

我从写这篇文章中学到了很多

事情开始于一个周日的下午, 我在看邮件。

然后我偶然看到一篇 Starr 写的有趣的文章,这不禁让我开始思考他的建议可能带来一些意料之外的效果。因此我开始去 google 搜索相关资料,而这拓宽了我对 UUIDs 的认识,并且改变了我对于如何使用它们的基本认知和态度。

写作途中,我曾给公司的组长发邮件询问我们的数据库设计是否考虑到了上面我所谈论到的几个观点。但愿我们做得很好,但是我想在本周计划发布的代码中我们已经避免掉了至少一个不可预计的意外。

写下这篇文章纯属满足私欲 :-)

但愿你也能喜欢!





原文发布时间为:2017年6月30日

本文来自云栖社区合作伙伴掘金,了解相关信息可以关注掘金网站。
相关实践学习
使用SQL语句管理索引
本次实验主要介绍如何在RDS-SQLServer数据库中,使用SQL语句管理索引。
SQL Server on Linux入门教程
SQL Server数据库一直只提供Windows下的版本。2016年微软宣布推出可运行在Linux系统下的SQL Server数据库,该版本目前还是早期预览版本。本课程主要介绍SQLServer On Linux的基本知识。 相关的阿里云产品:云数据库RDS SQL Server版 RDS SQL Server不仅拥有高可用架构和任意时间点的数据恢复功能,强力支撑各种企业应用,同时也包含了微软的License费用,减少额外支出。 了解产品详情: https://www.aliyun.com/product/rds/sqlserver
目录
相关文章
|
6月前
|
存储 数据库
UUID主键生成策略
【7月更文挑战第9天】在分库分表场景中,自增主键不再适用,面试时应提及这一挑战。主键生成策略包括UUID,虽简单但有两弊端:长度过长且非递增。递增主键能优化存储,避免页分裂导致的性能下降。准备时需了解常见策略、创新方案及优化措施。例如,UUID的非递增性可能导致数据库的页分裂和性能影响。
65 3
|
8月前
|
缓存 算法 安全
被追着问UUID和自增ID做主键哪个好,为什么?
讨论了UUID和自增ID作为数据库主键的优缺点。UUID全局唯一,适合分布式系统,但存储空间大,不适合范围查询。自增ID存储空间节省,查询效率高,但分库分表困难,可预测性高。UUID版本包括基于时间戳(V1)、随机数(V4)以及基于名称空间的MD5(V3)和SHA1(V5)散列。
被追着问UUID和自增ID做主键哪个好,为什么?
UUID.randomUUID().toString() 生成主键 介绍与使用
UUID.randomUUID().toString() 介绍 UUID.randomUUID().toString()是javaJDK提供的一个自动生成主键的方法。 UUID(Universally Unique Identifier)全局唯一标识符,是指在一台机器上生成的数字 它保证对在同一时空中的所有机器都是唯一的 是由一个十六位的数字组成,表现出来的形式
242 0
|
算法
|
芯片
C#GUID
原文:C#GUID GUID表示全局统一标识,用于产生不重复的数据。 下图是使用GUID时系统给出的提示,ToString()的重载部分说NULL和空字符串与"D"等价,这里并不等价, 原因应该是GUID的生成与通过以太网卡地址、纳秒级时间、芯片ID码和许多可能的数据有关,所以这里的数据并不一样。
1132 0
|
存储 C# 数据库