八、常见字符编码2:ISO-8859系列
美国市场虽然统一了字符编码,但是计算机制造商在进入欧洲市场的时候又遇到了麻烦。。。
欧洲的主流语言虽然也是用拉丁字母,但却存在很多扩展体,比如法语的“é”,挪威语中的“Å”,都无法用 ASCII 表示。但是大家发现ASCII后面的128个还没有被使用可以利用起来,这对于欧洲主流语言就足够了。
于是就有了大家所熟知的这个ISO-8859-1(Latin-1),它只是扩展了ASCII后128个字符,还是属于单字节编码。同时为了兼容原先的 ASCII码,当最高位是0的时候仍然表示原先的 ASCII 字符不变,当最高位是1的时候表示扩展的欧洲字符。
但是到这里还没有完:刚说了这只是欧洲主流的语言,但主流语言里没有法语使用的 œ、Œ、Ÿ 三个字母,也没有芬兰语使用的 Š、š、Ž、ž ,而单字节编码里的256个码点都被用完了,于是就出现了更多的变种 ISO-8859-2/3/.../16 系列,他们都兼容 ASCII,但彼此间又不完全兼容。
ISO-8859-n系列字符集如下:
- 1)ISO8859-1 字符集,也就是 Latin-1,是西欧常用字符,包括德法两国的字母;
- 2)ISO8859-2 字符集,也称为 Latin-2,收集了东欧字符;
- 3)ISO8859-3 字符集,也称为 Latin-3,收集了南欧字符;
- 4)ISO8859-4 字符集,也称为 Latin-4,收集了北欧字符;
- 5)ISO8859-5 字符集,也称为 Cyrillic,收集了斯拉夫语系字符;
- 6)ISO8859-6 字符集,也称为 Arabic,收集了阿拉伯语系字符;
- 7)ISO8859-7 字符集,也称为 Greek,收集了希腊字符;
- .......