代理项 Surrogate

2020-06-10 1020

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 代理项（Surrogate），是一种仅在 UTF-16 中用来表示补充字符的方法。在 UTF-16 中，为补充字符分配两个 16 位的 Unicode 代码单元：第一个代码单元，被称为高代理项代码单元或前导代码单元；第二个代码单元，被称为低代理项代码单元或尾随代码单元。

概述

代理项（Surrogate），是一种仅在 UTF-16 中用来表示补充字符的方法。在 UTF-16 中，为补充字符分配两个 16 位的 Unicode 代码单元：

这两个代码单元组合在一起，就被称为代理项对。

释义

关于代理项的概念，通俗来讲，就是为补充字符找两个“代理人”。由于补充字符体格壮硕，到了 UTF-16 这个地方就需要占用两个 16 位的座位。为了避免因“占座纠纷”导致意外发生，就需要为补充字符找来两个“代理人”，代替他来占用两个座位，这样就能皆大欢喜了。

代理项仅在 UTF-16 中用来表示补充字符，是指：

以下内容来自 Java API 文档：³

char 数据类型以及 Character 对象封装的值，都是基于最初的 Unicode 规范，该规范将字符定义为固定宽度的 16 位实体。随着 Unicode 标准的不断更新，超过 16 位的字符已被允许表示。合法代码点的范围已扩展到 U+10FFFF。

在 char 数组、String 类和 StringBuffer 类中，都采用 UTF-16 来表示字符。在这种表示法中，补充字符被表示为一对 char 值，第一个来自高代理项区间（uD800 - uDBFF），第二个来自低代理项区间（uDC00 - uDFFF）。

因此，char 值可表示 BMP 代码点、代理项代码点或 UTF-16 编码的代码单元。而所有的 Unicode 代码点，包括补充代码点，则用 int 值来表示。int 值中的低 21 位用来表示 Unicode 代码点，而高 11 位必须为零。