编码知识学习笔记之一

简介:   编码知识学习笔记之一 一.有哪些编码 1. ANSI 2.Unicode 3.Unicode big Endian 4.Unicode - ASCII Escaped   5.
 

编码知识学习笔记之一

一.有哪些编码

1. ANSI

2.Unicode

3.Unicode big Endian

4.Unicode - ASCII Escaped

 

5.UTF-7

6.UTF-8

7.UTF-16

 

8.UTF-8 - 无 BOM

9.UTF-16 - 无 BOM

 

10.UTF-16 - Big Endian

11.UTF-16 - Big Endian - 无 BOM

12.GBK

二.Unicode是什么的缩写

Universal Multiple-Octet Coded Character Set

三.Unicode是什么

Unicode 是一种字符编码方法,它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的全称是"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。

四.Unicode的历史

目前存在两个试图独立设计Unicode的组织:

1.  国际标准化组织(ISO)

2.  一个软件制造商的协会(unicode.org)

各自研发的项目

ISO开发了ISO 10646项目

Unicode协会开发了Unicode项

 

在1991年前后,双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode2.0开始,Unicode项目采用了与ISO 10646-1相同的字库和字码。

 

五.Unicode的最新标准

目前两个项目仍都存在,并独立地公布各自的标准。

1.Unicode协会现在的最新版本是2005年的Unicode 4.1.0。

2.ISO的最新标准是10646-3:2003。

六.UCS是什么的缩写

Unicode Character Set

七.UTF是什么的缩写

UCS Transformation Format

八.UCS与UTF的关系是怎样的?

UCS规定了怎么用多个字节表示各种文字。

怎样传输这些编码,是由UTF(UCS Transformation Format)规范规定的

小结:

UCS:表示各种文字

UTF:传输这些文字

九.UTF有哪些常见规范(也就是编码格式)

1.UTF-7

2.UTF-8

3.UTF-16

十.UTF的描述UTF-8和UTF-16编码的规范文档是什么?

IETF 的RFC2781和RFC3629以RFC的一贯风格,清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。

RFC2781描述UTF-16编码规范

RFC3629描述UTF-8编码规范

十一.IETF是什么缩写

Internet Engineering Task Force

十二.IETF组织的作用是什么

IETF负责维护的RFC

十三.RFC文档的作用是什么

RFC是Internet上一切规范的基础

十四.Unicode与ASCII,以及GB的兼容性关系

Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容

十五.UCS两种格式

UCS-2和UCS-4

十六.UCS-2和UCS-4的区别

1.UCS-2就是用两个字节编码

2.UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码

十七.UCS-2和UCS-4各自有多少个码位

UCS-2有2^16=65536个码位,UCS-4有2^31=2147483648个码位。

十八.什么叫UCS-4 BMP

UCS -4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个plane。每个plane根据第3个字节分为 256行 (rows),每行包含256个cells。当然同一行的cells只是最后一个字节不同,其余都相同。

也就是说:

UCS -4是4个字节,从高到低,从第1个字节到第4个字节,

第1个字节是高字节,第4个字节是低字节

第1个字节分成128个group

第2个字节分成256个plane

第3个字节分成256 个rows

第4个字节分成256个cells

group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中,高两个字节为0的码位被称作BMP。

 

将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。在UCS-2的两个字节前加上两个零字节,就得到了UCS-4的BMP。而目前的UCS-4规范中还没有任何字符被分配在BMP之外。

相关文章
|
1月前
|
人工智能 Kubernetes 调度
ModelDistribution:高效的大模型管理、分发和预热方案
阿里云ACK One舰队推出ModelDistribution方案,创新性采用OCI标准封装模型,实现跨地域高效分发与预热,解决大模型部署中的管理复杂、拉取慢、多集群同步难等痛点,助力企业平滑演进至多地域AI推理架构。
214 1
ModelDistribution:高效的大模型管理、分发和预热方案
|
1月前
|
资源调度 监控 测试技术
《SaaS多租户实战指南:从灰度发布到故障容错的全链路架构设计》
本文聚焦企业级团队协作SaaS应用的多租户架构迭代实践,针对租户规模差异大、资源冲突、定制化与标准化矛盾等核心痛点展开。初期简易多租户模式因资源共享导致故障后,作者重构架构:采用“独立数据库+共享数据库+租户标识”的混合隔离方案,解决数据隔离与成本平衡问题;搭建基于租户画像的弹性资源调度体系,通过预测式调度与实时调整提升资源利用率;以“核心标准化+定制插件化”架构,缩短定制需求响应时间;构建分层灰度发布与故障容错机制,将版本故障发生率大幅降低。最终总结出SaaS多租户架构需“以租户为中心”,在隔离、共享、定制间找到精细化平衡点的核心经验。
213 6
|
3月前
|
Cloud Native 测试技术 开发者
云原生 LFX Mentorship 招募中:开源影响力与丰厚报酬兼得,开发者不容错过!
参与其中的开发者不仅有机会在经验丰富的社区 Mentor 指导下贡献开源项目、为职业生涯加分,完成课题后还能获得丰厚酬劳。
|
7月前
|
人工智能 运维 监控
从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓
本文探讨了中国大模型DeepSeek在全球范围内的成功及其面临的网络安全挑战。DeepSeek以低成本、高性能的特点迅速走红,甚至超越ChatGPT,但同时也遭受了大规模恶意攻击,如DDoS和密码暴力破解。文章分析了这些攻击对AI行业的影响,并提出通过阿里云构建安全可观测体系的解决方案,包括流量监控、日志审计与异常检测等,为AI技术的安全发展提供保障。
291 1
|
安全 应用服务中间件 网络安全
简单比较 http https http2,我们要如何把http升级为https
【9月更文挑战第13天】本文对比了HTTP、HTTPS和HTTP/2的特点与适用场景。HTTP以明文传输,适合低安全要求的环境;HTTPS通过SSL/TLS加密,适用于电子商务等安全要求高的场景;HTTP/2采用二进制格式和多路复用,适合高性能Web应用。文章还详细介绍了将HTTP升级为HTTPS的步骤,包括申请和安装SSL证书、配置Web服务器、重定向HTTP流量到HTTPS以及测试HTTPS功能。升级到HTTPS可提高数据安全性和用户信任度。
547 13
|
机器学习/深度学习 人工智能 算法
拥抱变化:技术演进中的适者生存
【5月更文挑战第27天】 在快速迭代的技术世界里,唯一不变的是变化本身。本文探讨了技术进步如何塑造我们的工作和生活方式,并重点讨论了适应技术变革的重要性。通过分析几个关键技术领域的发展趋势,文章揭示了不断学习和适应新技术的重要性,并提出了一系列策略来帮助个人和组织保持竞争力。
|
供应链 监控 区块链
确保区块链供应链的透明度和可追溯性,我们可以从以下几个方面进行
**区块链提升供应链透明度与可追溯性:** - 建立不可篡改记录,保证数据真实完整。 - 实现实时监控,加快问题响应,提高效率。 - 追溯产品全程,消费者可验证来源,增强信任。 - 促进信息共享,降低沟通成本,提升协同。 - 防止欺诈串通,确保供应链诚信与透明。 这些措施通过区块链技术的应用,优化供应链管理,降低成本,增强市场信心。
|
机器学习/深度学习 人工智能 算法
基于YOLOv8深度学习的木薯病害智能诊断与防治系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战
基于YOLOv8深度学习的木薯病害智能诊断与防治系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战
|
应用服务中间件 nginx 数据安全/隐私保护
Keepalived 常用配置+检测脚本
1、在与其他服务一起运行下做高可用时,比如NGINX,需要在NGINX断开的时候先尝试启动一次NGINX,如果启动不行,漂移keepalived到备机,所以需要在配置下加检测脚本。
2355 0