一、什么是字符编码
字符编码是将字符转换为二进制数字的过程,用于计算机的输入、输出和存储。在Java中,字符编码是使用Java编程语言中的Unicode字符集进行处理的。Unicode字符集是一个标准的字符集,它为世界上的每个字符分配了一个唯一的编号,包括拉丁字母、汉字、日语假名等等。
Java的Unicode字符集使用UTF-16编码方案,UTF-16是Unicode字符集中的一种编码方式,它将一个字符编码为一个或两个16位的代码单元。因此,Java的字符类型char在内存中占据两个字节的空间。
二、字符编码的类型
在Java中,常见的字符编码类型有以下几种:
ASCII编码
ASCII编码是一种最早的字符编码,它使用7位二进制数表示128个字符,包括英文字母、数字、标点符号和控制字符等。在ASCII编码中,每个字符都有一个唯一的二进制代码,可以在计算机中进行传输和存储。
ISO-8859-1编码
ISO-8859-1编码是一种使用8位二进制数表示字符,它可以表示256个字符,包括西欧语言中的字符和一些特殊字符。在Java中,默认使用ISO-8859-1编码表示字节流和网络数据。
Unicode编码
Unicode编码是一个标准的字符集,它为世界上的每个字符分配了一个唯一的编号,包括拉丁字母、汉字、日语假名等等。在Java中,Unicode编码可以使用字符串类型来表示。
UTF-8编码
UTF-8编码是一种可变长度编码方式,它可以根据字符的不同采用1-4个字节的编码方式,因此它可以表示Unicode字符集中的所有字符。在Java中,UTF-8编码可以使用字符串类型来表示。
转换案例
public class CodeDemo { public static void main(String[] args) { String info ="学习字符转换"; //通常乱码的情况是 两个不兼容的编码相互转换 //UTF_8 转 iso-8859-1 iso-8859-1不兼容中文 会乱码 String s = new String(info.getBytes(StandardCharsets.UTF_8), StandardCharsets.ISO_8859_1); System.out.println(s); // iso-8859-1 转 UTF_8 String strInfo = new String(s.getBytes(StandardCharsets.ISO_8859_1), StandardCharsets.UTF_8); System.out.println(strInfo); } }