ANSI -> Ascii : American Standard Code for information interchange;一个字节/字符;0~0x32 为控制码;33~255 为 字符;
http://www.cs.utk.edu/~pham/ascii.html
中 国人民 ->GB2312: 去掉Ascii表127之后的定义. 规定:一个小于127的字符意义与原来相同, 两个大于127的字符组合在一起就表示一个汉字,这些由两个字符组成的汉字叫全角字符,1~127的叫半角字符 [0xA1,0xF7][0xA1,0xFE]。
中国人民 ->GBK: 只要第一个字节大于127 ,这个字节和随后的字节表示一个汉字 [0xA1,0xF7][0x00,0xFE],GBK包含了gb2312的全部字符。
ISO ->UNICODE: 所有字符都用2字节编码, Windows 的核心使用的就是UNICODE
->UTF-8:动态编码,字母和数字一般用1个字节表示,汉字和其他字符用2~3个字节表示规则如下表。
ISO 和UTF-8的转换规则:
http://www.cs.utk.edu/~pham/ascii.html
中 国人民 ->GB2312: 去掉Ascii表127之后的定义. 规定:一个小于127的字符意义与原来相同, 两个大于127的字符组合在一起就表示一个汉字,这些由两个字符组成的汉字叫全角字符,1~127的叫半角字符 [0xA1,0xF7][0xA1,0xFE]。
中国人民 ->GBK: 只要第一个字节大于127 ,这个字节和随后的字节表示一个汉字 [0xA1,0xF7][0x00,0xFE],GBK包含了gb2312的全部字符。
ISO ->UNICODE: 所有字符都用2字节编码, Windows 的核心使用的就是UNICODE
->UTF-8:动态编码,字母和数字一般用1个字节表示,汉字和其他字符用2~3个字节表示规则如下表。
ISO 和UTF-8的转换规则:
Unicode
|
UTF-8
|
0000 - 007F
|
0xxxxxxx
|
0080 - 07FF
|
110xxxxx 10xxxxxx
|
0800 - FFFF
|
1110xxxx 10xxxxxx 10xxxxxx
|
查看字符的2进制代码:
把文件后缀改为bin 然后用VS 打开
本文转自 xhinkerx 51CTO博客,原文链接:http://blog.51cto.com/xhinker/214502,如需转载请自行联系原作者