带你读《全景揭秘字符编码》之九:九、常见字符编码3:GB系列(5)

简介: 带你读《全景揭秘字符编码》之九:九、常见字符编码3:GB系列(5)

带你读《全景揭秘字符编码》之九:九、常见字符编码3:GB系列(4) https://developer.aliyun.com/article/1240899?groupCode=tech_library


9.3、GBK


GBK即“国标扩展”的意思,因为GB2312双字节的最高位都要求大于1,上限也不会超过1万个字符,所以对此进行了扩展,对GB2312的字符不重新编码直接沿用,因此完全兼容GB2312。


GBK虽然也是双字节编码,但是只要求第一个字节大于 127 就固定表示这是一个汉字的开始,正因为如此,GBK的编码空间比GB2312大很多。


GBK 整体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线,总计 23940 个码位,共收入 21886 个汉字和图形符号。其中 GBK/1 收录除 GB 2312 字符外的其他增补字符,GBK/2 收录 GB2312 字符,GBK/3 收录 CJK 字符,GBK/4 收录 CJK 字符和增补字符,GBK/5 为非中文字符,UDC 为用户自定义字符。


详细如下如所示:


这里大家可能会有两个疑问:为什么尾字节要从40开始,而不是00开始?为什么要排除 FF、xx7F这两条线的编号?


GBK的尾字节编码高位没有强制要求是1,当高位是0时跟ASCII码是冲突的,ASCII码里00-40之间大部分都是控制字符,所以排除控制字符主要是为了防止丢失高字节导致出现系统性严重后果。


排除FF是为了兼容GB2312,GB2312这个位是保留不使用的;而7F表示DEL字符就是向后删除一个字符,如果传输过程中丢失首字节那么就会出现严重的后果,所以需要将xx7F也排除,这是所有编码方案都需要注意的地方。



带你读《全景揭秘字符编码》之九:九、常见字符编码3:GB系列(6) https://developer.aliyun.com/article/1240896?groupCode=tech_library

相关文章
|
9月前
|
消息中间件 监控 算法
用Apifox调试Socket.IO接口,从原理到实践
传统HTTP协议"请求-响应"的离散式通信机制已难以满足需求,这正是Socket.IO这类实时通信框架的价值所在。
用Apifox调试Socket.IO接口,从原理到实践
|
Kubernetes Cloud Native 云计算
云原生入门:从Docker到Kubernetes的旅程
【10月更文挑战第2天】本文将带你走进云原生的世界,从基础的Docker容器技术开始,逐步深入到Kubernetes集群管理。我们将通过实际代码示例,探索如何利用这些工具构建、部署和管理现代云应用。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的知识和技能,让你在云原生领域迈出坚实的一步。
268 5
|
开发框架 安全 开发者
Docker 是一种容器化技术,支持开发者将应用及其依赖打包成容器,在不同平台运行而无需修改。
Docker 是一种容器化技术,支持开发者将应用及其依赖打包成容器,在不同平台运行而无需修改。本文探讨了 Docker 在多平台应用构建与部署中的作用,包括环境一致性、依赖管理、快速构建等优势,以及部署流程和注意事项,展示了 Docker 如何简化开发与部署过程,提高效率和可移植性。
292 4
|
弹性计算 缓存 网络协议
阿里云通用算力型u1服务器CPU采用Intel(R) Xeon(R) Platinum 8163或8269CY
阿里云通用算力型u1服务器CPU采用Intel(R) Xeon(R) Platinum 8163或8269CY,阿里云服务器u1通用算力型Universal实例高性价比,CPU采用Intel(R) Xeon(R) Platinum,主频是2.5 GHz,云服务器U1实例的基准vCPU算力与5代企业级实例持平,最高vCPU算力与6代企业级实例持平,提供2c-32c规格和1:1/2/4/8丰富配比,阿里云服务器u1适用于Web应用及网站,企业办公类应用,数据分析和计算等大多数通用的对vCPU算力和性能要求不高的应用场景
1217 0
|
NoSQL 搜索推荐 机器人
DingTalk「开发者说」钉钉酷应用&酷学院:企业社群学习“酷化”之路
酷应用是钉钉平台上比较新的一个概念,他是一种全新的基于沉浸式、场景化、网络协同理念的应用形态。不同于传统 ToB 应用由比较复杂的功能、单据、流程和报表组成,酷应用使用轻量化的方式,将复杂功能解构、碎片化。
1893 0
DingTalk「开发者说」钉钉酷应用&酷学院:企业社群学习“酷化”之路
|
网络协议 安全 Unix
Linux系统的稳定性优势有哪些
Linux系统的稳定性优势有哪些
|
IDE Apache 开发工具
盘点开发者最喜爱的十大开源Xcode插件
Xcode IDE拥有着诸如导航、重构、校准等众多非常高大上的工具,而予以辅助的插件更是在Xcode的基础上对相关功能进行改进与扩展。在应用开发过程中,通过开源包管理器Alcatraz对插件进行安装管理,打造最为强大的开发环境,早已成为开发者们的必备功课。本文总结介绍了备受开发者喜爱的10款开源Xcode插件,涉及代码编辑、注释、管理等各个方面。
1235 0
盘点开发者最喜爱的十大开源Xcode插件
|
Java 测试技术 Android开发
Android Flutter实践内存初探
Android Flutter实践内存初探 闲鱼技术-匠修我们想使用Flutter来统一移动App开发并做了一些实践。移动设备上的资源有限,通常内存使用都是一个我们日常开发中十分关注的问题。那么,Flutter是如何使用内存,又会对Native App的内存带来哪些影响呢?本文将简单介绍Flutter内存机制,结合测试和我们的开发实践,对日常关心的Bitmap内存使用,View绘制内存使用方面做一些探索。
6882 0

热门文章

最新文章