ES6-字符串的扩展-16进制

2024-04-17 223

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： es6记录

为什么`'\u{1F680}'==='\uD83D\uDE80'`

首先需要了解JS代码里面的unicode编码字符的语法是：\uXXXX.这种表示法只能记录码点在\u0000~\uFFFF之间(即0~65535)的字符,超出这个范围的字符,必须用两个双字节的形式表示.
对于大于0xFFFF(即65535 0x即16进制)的字符，先减去0x10000(即65536)，然后转换为20bit的二进制数，然后分别填充两个码点空出的10bit，这就是需要两个码点字符的保存方式。

码点一: 0b110110(0b即二进制)
码点二: 0b110111

但是为什么是这两个码点呢?这与Unicode编码的设计者的设计有关.
Unicode编码0xD800-0xDFFF,共2048个码位,是一个被称作代理区(Surrogate)的特殊区域.代理区的目的用两个UTF-16字符表示0~0xFFFF(即0~65535)以外的字符。所有大于0xFFFF的码需要使用代理区的码点。

目前Unicode最大的码位是0x10FFFF(即1114111)

0x010000-0x10FFFF,需要使用2个代理码元表示,第一个码元为0xD800-0xDBFF(高位)范围是:1101 1000 0000 0000到1101 1011 1111 1111,第二个码元为0xDC00－0xDFFF(低位)范围是:1101 1100 0000 0000到1101 1111 1111 1111.

十进制	Unicode编码	说明	说明
55296-56191	0xD800－0xDB7F（896个）	High Surrogates	高位替代
56192-56319	0xDB80－0xDBFF（128个）	High Private Use Surrogates	高位专用替代
56320-57343	0xDC00－0xDFFF（1024个）	Low Surrogates	低位替代

接下来我们把Unicode编码>65535的记为U,我们先计算U'=U-0x10000,然后将U'写成二进制形式:yyyy yyyy yyxx xxxx xxxx,那么U的UTF-16编码(二进制)就是:110110yyyyyyyyyy110111xxxxxxxxxx.

了解前边两个码点后,那么 0x1F680如果用两个双字节表示呢

先计算0x1F680-0x10000 结果为 0xF680
```
 (0x1F680-0x10000).toString(16)
```
0xF680转化为2进制结果为0b1111 0110 1000 0000
```
 0xf680.toString(2)
```
将上一步结果补全为20位的二进制数0b0000 1111 0110 1000 0000(前面加4个0)
填充两个码点空出的10bit,第一个码点填充为0b1101 1000 0011 1101 第二个码点填充为0b1101 1110 1000 0000
将两个填充后的码点转化为十六进制即为0xD83D和0xDE80.

即'\u{1F680}'==='\uD83D\uDE80'

参考:
阮一峰 ECMAScript 6 (ES6) 标准入门教程第三版
 Unicode 编码理解

文章标签：

JavaScript

ES6-字符串的扩展-16进制

为什么`'\u{1F680}'==='\uD83D\uDE80'`

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

ES6-字符串的扩展-16进制

为什么'\u{1F680}'==='\uD83D\uDE80'

热门文章

最新文章

相关电子书

为什么`'\u{1F680}'==='\uD83D\uDE80'`