字符编码问题之UTF-16支持超过6w多个码点的如何解决

简介: 字符编码问题之UTF-16支持超过6w多个码点的如何解决

问题一:UCS和Unicode的关系是什么?Unicode和UCS是如何合并的?


UCS和Unicode的关系是什么?Unicode和UCS是如何合并的?


参考回答:

UCS(全称Universal Multiple-Octet Coded Character Set)和Unicode都是致力于开发一款全世界通用的编码集的标准。两者在1990年代初期发现了各自的工作内容重复,并决定合并,使得相同字符在两个标准中的编码(码点)必须是一样的。现在我们可以认为UCS和Unicode是同一个东西。Unicode和UCS的合并工作经历了多轮迭代。在1993年,ISO/IEC和Unicode发布了第一版相互兼容版本。到了1996年,Unicode 2.0标准发布时,Unicode字符集和UCS字符集(即ISO/IEC 10646-1)基本保持了一致。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/653964


问题二:为什么Unicode最初打算作为UCS的真子集?


为什么Unicode最初打算作为UCS的真子集?


参考回答:

因为UCS最初设计的是31位编码空间(UCS-4编码实现),可以容纳2^31约21亿个字符,而Unicode是16位空间(UTF-16编码实现),所以Unicode打算作为UCS的真子集,即Unicode中的每个字符都存在于UCS中,而且两者的码点相同。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/653965


问题三:UTF-16是如何支持超过6w多个码点的?


UTF-16是如何支持超过6w多个码点的?


参考回答:

UTF-16编码本质上不是纯粹的双字节编码,它采用代理对的方式实现变长编码。大部分常用字符用一个码元表示(定长2个字节),其他扩展的特殊字符用两个码元表示(定长4字节),从而支持到Unicode编码空间的上限「0000 ~ 10FFFF」。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/653966


问题四:UTF-16和UCS-2有什么区别?


UTF-16和UCS-2有什么区别?


参考回答:

UTF-16是Unicode编码的一种实现方式,它使用变长的形式来支持更多的字符,包括使用代理对来表示超过65,536个码点的字符。而UCS-2是UCS(即ISO/IEC 10646)的一种双字节定长编码实现,只能表示最多65,536个字符。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/653967


问题五:为什么Unicode和UCS决定使用统一的编码空间「0000 ~ 10FFFF」?


为什么Unicode和UCS决定使用统一的编码空间「0000 ~ 10FFFF」?


参考回答:

Unicode和UCS决定使用统一的编码空间「0000 ~ 10FFFF」是因为这样可以确保两个标准中的字符编码保持一致,并且为将来的字符扩展提供了足够的空间。同时,这个决定也避免了浪费过大的编码空间。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/653968

目录
相关文章
|
3月前
|
自然语言处理 Unix Linux
字符编码问题之UTF-16和UCS-2的关系如何解决
字符编码问题之UTF-16和UCS-2的关系如何解决
72 1
|
3月前
|
存储 自然语言处理
字符编码问题之Unicode传统字符编码方案中的语言编码冲突如何解决
字符编码问题之Unicode传统字符编码方案中的语言编码冲突如何解决
48 1
|
3月前
字符编码问题之GB2312编码设计来避免与ASCII字符编码冲突如何解决
字符编码问题之GB2312编码设计来避免与ASCII字符编码冲突如何解决
58 0
|
3月前
字符编码问题之GBK确保与ASCII码的兼容性如何解决
字符编码问题之GBK确保与ASCII码的兼容性如何解决
42 0
|
3月前
字符编码问题之GB18030实现字节变长编码的如何解决
字符编码问题之GB18030实现字节变长编码的如何解决
37 0
|
3月前
|
自然语言处理
字符编码问题之UTF-16不直接采用4字节定长编码来支持所有字符如何解决
字符编码问题之UTF-16不直接采用4字节定长编码来支持所有字符如何解决
47 0
|
5月前
|
存储 自然语言处理 数据库
UTF-8编码:打破字符编码的国界
UTF-8编码:打破字符编码的国界
|
6月前
|
存储 自然语言处理 关系型数据库
👨‍💻如何使用MySQL存储Emoji表情,UTF-8和UTF-8MB4字符编码有何区别?
👨‍💻如何使用MySQL存储Emoji表情,UTF-8和UTF-8MB4字符编码有何区别?
174 1
带你读《全景揭秘字符编码》之九:九、常见字符编码3:GB系列(3)
带你读《全景揭秘字符编码》之九:九、常见字符编码3:GB系列(3)
137 0
带你读《全景揭秘字符编码》之九:九、常见字符编码3:GB系列(1)
带你读《全景揭秘字符编码》之九:九、常见字符编码3:GB系列(1)
162 0