UTF-8笔记170330

简介: unicode为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的UTF-8使用可变长度字节来储存Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。





unicode


为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的

UTF-8使用可变长度字节来储存 Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字符则使用4字节

RFC 3629utf8


UTF-8Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E000x9FA5(其实还包括了中日韩的),是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所以可以看出unicode是给出一个字符的范围,定义了这个字是码值是多少,至于具体的实现方式可以有多种多样来实现。

1字节 7   0xxxxxxx 
2
字节 11 110xxxxx 10xxxxxx 
3
字节 16 1110xxxx 10xxxxxx 10xxxxxx 
4
字节 21 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
5
字节 26 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
6
字节 31 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 

目录
相关文章
|
2月前
|
存储
字符编码发展史5 — UTF-16和UTF-32
【10月更文挑战第7天】UTF-16 和 UTF-32 是两种重要的 Unicode 编码方式。UTF-16 使用 16 位或 32 位编码单元,对基本平面字符高效表示,尤其适合亚洲语言,但处理辅助平面字符较复杂。UTF-32 固定使用 32 位编码单元,编码简单高效,但占用空间大,适用于特定领域和系统。
|
2月前
|
自然语言处理
UTF-8编码的意义
UTF-8编码的意义
65 0
|
6月前
|
存储 自然语言处理 Java
UTF-8编码详解
UTF-8编码详解
|
存储 自然语言处理 算法
UTF-8编码
通过阅读本篇文章,你可以了解到:UTF-8编码的规则。
357 0
UTF-8编码
|
存储 XML 编解码
计算机基础:今天一次把 Unicode 和 UTF-8 说清楚
计算机基础:今天一次把 Unicode 和 UTF-8 说清楚
764 0
计算机基础:今天一次把 Unicode 和 UTF-8 说清楚
|
存储 XML 编解码
计算机基础:Unicode 和 UTF-8 有什么区别
计算机基础:Unicode 和 UTF-8 有什么区别
176 0
计算机基础:Unicode 和 UTF-8 有什么区别
|
存储 关系型数据库 MySQL
mysql编码问题——charset=utf8你真的弄明白了吗?(一)
mysql编码问题——charset=utf8你真的弄明白了吗?(一)
mysql编码问题——charset=utf8你真的弄明白了吗?(一)
|
存储 关系型数据库 MySQL
mysql编码问题——charset=utf8你真的弄明白了吗?(二)
mysql编码问题——charset=utf8你真的弄明白了吗?(二)
mysql编码问题——charset=utf8你真的弄明白了吗?(二)
|
关系型数据库 MySQL
mysql编码问题——charset=utf8你真的弄明白了吗?(三)
mysql编码问题——charset=utf8你真的弄明白了吗?(三)
mysql编码问题——charset=utf8你真的弄明白了吗?(三)
|
存储 关系型数据库 MySQL
utf8改成utf8mb4实战教程
在 MySQL 中,系统支持诸多字符集,不同字符集之间也略有区别。目前最常用的字符集应该是 utf8 和 utf8mb4 了,相比于 utf8 ,utf8mb4 支持存储 emoji 表情,使用范围更广。本篇文章将会介绍 utf8 修改成 utf8mb4 字符集的方法。
751 0