你了解java中的几种编码方式?解决乱码问题可能并不麻烦

简介: 编码的转换通常在IO机制中使用,一个好的编码可以为我们节省很多空间,在某种程度上提高我们应用的效率。由于之前就知道String中的转换方式,还有一些工具类,因此今天就好好的整理一下java中jdk提供的几种转换方式,希望对你有帮助。

一、编码转换原理



1、为什么需要编码


我们知道计算机存储信息的最小单位是一个字节8位,能够表示256个字符。这对于早起的英文来说足够了。即使是加上一些常见符号也足够。于是在1965年美国制定了ASCII编码,主要用于英语和西欧语言,一开始128个,后来加到了256。


后来随着时间的发展,中国、日本等国的计算机也开始蓬勃发展,于是计算机不仅仅要存储英文了,也开始存储中文。但是中文我们都知道几万个太多了,一个字节肯定放不下。怎么办呢?一个字节表示不下,那就多用几个字节就好了。这样不仅可以表示汉字,还可以避免了与ASCII编码的冲突。这几个字节在存储的时候再转化为bit,完美!划重点哈,编码解决的就是字节和字符之间的转化问题。


2、编码方式


既然是编码,那些大佬早就考虑到了这些问题,并提拱了多种编码方式,常见的有 ASCII、ISO-8859-1、GB2312、GBK、UTF-8、UTF-16 等。它们规定了转化的规则,按照这个规则就可以让计算机正确的表示我们的字符。


像GB2312、GBK、UTF-8、UTF-16等很多种方式都可以表示汉字,他们有什么区别呢?


(1)GB2312


它是双字节编码,总的编码范围是 A1-F7,其中从 A1-A9 是符号区,总共包含 682 个符号,从 B0-F7 是汉字区,包含 6763 个汉字。这个是中国1981年搞出来的。这种编码是一个汉字两个字节。


(2)GBK


它的编码范围是 8140~FEFE(去掉 XX7F)总共有 23940 个码位,它能表示 21003 个汉字。这个是中国在1995年搞出来的,主要是用于GB2312编码的补充。这种编码依然是一个汉字两个字节。


(3)Unicode


上面看到,中国可以做出了一个编码,日本也可以做出来一个编码,时间久了每个国家都有着自己的一套编码,就不可避免的造成冲突。于是Unicode出来了,把所有语言统一起来合成一个规则。这种编码是定长的字节数。


(4)UTF8


既然Unicode是定长的字节数,那么存储一个复杂的汉字可能需要三个字节,但是为了保证是2的幂数集,就会自动扩充为4个字节,别看着一个字节之差,存储的字数多了就会极大的浪费空间。是于是而 UTF-8 采用了一种变长技术,每个编码区域有不同的字码长度。不同类型的字符可以是由 1~6 个字节组成。


以上这些编码方式会为每一个汉字或者是字母建立一个编码库,在编码的时候字母和编码一一对应。


3、为什么会出现乱码?


这个问题就是因为编码和解码是采用了不同的或者是不兼容的编码方案。比如一个用UTF-8编码的后的字符。再用GBK去解码,由于两个字符集的编码库不一样。同一个汉字在两个编码库的位置也不一样。于是就出现了乱码。


4、java如何解决乱码问题?


这个问题其实就是java中如何使用编码规则,因为使用好了编码规则。才可以很好地解决乱码问题


(1)IO流

编码的目的上面已经说了,主要是字节和字符之间的转化。既然涉及到字节和字符很容易我们就能想到java中的IO流。也就是说java中编码的转换其实就是IO流中的类来实现的。

v2-b0f3e47a2ea12f30b81edf2890aacd03_1440w.jpg

最核心的就是上面几个类,当然这里只是给出了输入的一部分,还有一些输出的类。


(2)String


String类中也提供了一些转码的方法。下面我们会通过实例来说明。为什么String可以实现呢?这是因为String底层保存的其实就是一个一个字节,而且String还有方法直接转化为字符。所以String肯定也能实现。


(3)Charset


这个Charset是javaNIO中的一个类,整个流程就是读取数据,然后转化为byte,也就是字符。然后重新编码成字符就OK了。

下面我们使用代码来实现一下:


二、代码实现


1、IO流


首先是IO流实现,这种通过输入输出流可以直接的指定编码规则。

public void convertionFile() throws IOException {
  File file = new File("./愚公要移山.txt");
  FileInputStream fis = new FileInputStream(file);
  InputStreamReader inReader = new InputStreamReader(fis, "gbk");
  FileOutputStream fos = new FileOutputStream(file);
  OutputStreamWriter outReader = new OutputStreamWriter(fos, "utf-8");
        //这种输入gbk,输出utf-8肯定会出现错误
 }


2、String


使用string是最方便的,代码也比较简洁,适用于字符串的编码。

public void convertionString() throws UnsupportedEncodingException {
  String s = "愚公要移山,码农飞上天";
  // 正常情况下转码的过程
  byte[] b = s.getBytes("gbk");// 编码
  String sa = new String(b, "gbk");// 解码
  System.out.println(sa);
  // 错误状态下转码的过程
  b = sa.getBytes("utf-8");// 编码使用utf-8
  sa = new String(b, "gbk");// 解码使用gbk
  System.err.println(sa);
}
//控制台输出:
//愚公要移山,码农飞上天
//鎰氬叕瑕佺Щ灞憋紝鐮佸啘椋炰笂澶?


3、Charset


public void convertionCharset() throws IOException {
  Charset charset = StandardCharsets.UTF_8;
  // 从字符集中创建相应的编码和解码器
  CharsetEncoder encoder = charset.newEncoder();
  CharsetDecoder decoder = charset.newDecoder();
  // 构造一个buffer
  CharBuffer charBuffer = CharBuffer.allocate(64);
  charBuffer.put('A');
  charBuffer.flip();
  // 将字符序列转换成字节序列
  ByteBuffer bb = encoder.encode(charBuffer);
  // 将字节序列转换成字符序列
  bb.flip();
  CharBuffer cb = decoder.decode(bb);
}

以上就是三种基本的实现方式,当然还有一些其他的,比如Spring中提供的编码转换工具等等。在这里就不说了,因为技术太多,实现的方式也太多,我们就看这几种即可。

相关文章
|
2月前
|
Java
Java开发实现图片URL地址检验,如何编码?
【10月更文挑战第14天】Java开发实现图片URL地址检验,如何编码?
90 4
|
2月前
|
Java
Java实现随机生成某个省某个市的身份证号?如何编码?
【10月更文挑战第18天】Java实现随机生成某个省某个市的身份证号?如何编码?
153 5
|
2月前
|
Java
Java开发实现图片地址检验,如果无法找到资源则使用默认图片,如何编码?
【10月更文挑战第14天】Java开发实现图片地址检验,如果无法找到资源则使用默认图片,如何编码?
65 2
|
4月前
|
安全 Java API
告别繁琐编码,拥抱Java 8新特性:Stream API与Optional类助你高效编程,成就卓越开发者!
【8月更文挑战第29天】Java 8为开发者引入了多项新特性,其中Stream API和Optional类尤其值得关注。Stream API对集合操作进行了高级抽象,支持声明式的数据处理,避免了显式循环代码的编写;而Optional类则作为非空值的容器,有效减少了空指针异常的风险。通过几个实战示例,我们展示了如何利用Stream API进行过滤与转换操作,以及如何借助Optional类安全地处理可能为null的数据,从而使代码更加简洁和健壮。
128 0
|
2月前
|
存储 缓存 Java
java基础:IO流 理论与代码示例(详解、idea设置统一utf-8编码问题)
这篇文章详细介绍了Java中的IO流,包括字符与字节的概念、编码格式、File类的使用、IO流的分类和原理,以及通过代码示例展示了各种流的应用,如节点流、处理流、缓存流、转换流、对象流和随机访问文件流。同时,还探讨了IDEA中设置项目编码格式的方法,以及如何处理序列化和反序列化问题。
88 1
java基础:IO流 理论与代码示例(详解、idea设置统一utf-8编码问题)
|
3月前
|
存储 移动开发 Java
java核心之字符串与编码
java核心之字符串与编码
26 2
|
4月前
|
Java Maven
【Azure Function App】Java Function部署到Azure后出现中文显示乱码问题
【Azure Function App】Java Function部署到Azure后出现中文显示乱码问题
|
4月前
|
Java
Java系列之:字符串UTF-8 编码格式转换位 UTF-32 【生僻字截取问题】
这篇文章讨论了在Java中处理包含生僻字的字符串时可能遇到的问题,并提供了一种解决方法:将字符串的编码格式从UTF-8转换为UTF-32,以确保每个字符都占用固定的字节数,从而避免在截取操作中破坏字符,示例代码展示了如何进行编码转换和字符串截取。
|
4月前
|
存储 安全 Java
"Java编码魔法:揭秘图片与文件的Base64神秘转换术,让数据在指尖跳跃!"
【8月更文挑战第16天】Base64编码在Java开发中常用于将二进制数据如图片转换为ASCII字符串以便传输。编码使用64个字符及等号填充,每3字节数据编码为4个字符。Java利用`java.util.Base64`类实现此功能:读取图片或文件为字节数组后进行编码。解码时将Base64字符串还原为字节数组并写入文件。需注意编码效率降低、不提供安全性及特殊字符兼容性等问题。掌握这些技巧有助于解决Web开发中的数据传输需求。
108 4
|
4月前
|
Java
Java——编码GBK的不可映射字符
Java——编码GBK的不可映射字符
48 1