再谈java乱码:GBK和UTF-8互转尾部乱码问题分析

简介: 一直以为,java中任意unicode字符串,可以使用任意字符集转为byte[]再转回来,只要不抛出异常就不会丢失数据,事实证明这是错的。

一直以为java中任意unicode字符串可以使用任意字符集转为byte[]再转回来只要不抛出异常就不会丢失数据事实证明这是错的。

经过这个实例也明白了为什么 getBytes()需要捕获异常虽然有时候它也没有捕获到异常。

言归正传先看一个实例。

用ISO-8859-1中转UTF-8数据

设想一个场景

用户A有一个UTF-8编码的字节流通过一个接口传递给用户B

用户B并不知道是什么字符集他用ISO-8859-1来接收保存

在一定的处理流程处理后把这个字节流交给用户C或者交还给用户A他们都知道这是UTF-8他们解码得到的数据不会丢失。

下面代码验证

public static void main(String[] args) throws Exception {
  //这是一个unicode字符串与字符集无关
  String str1 = "用户";

  System.out.println("unicode字符串"+str1);

  //将str转为UTF-8字节流
  byte[] byteArray1=str1.getBytes("UTF-8");//这个很安全UTF-8不会造成数据丢失

  System.out.println(byteArray1.length);//打印6没毛病

  //下面交给另外一个人他不知道这是UTF-8字节流因此他当做ISO-8859-1处理

  //将byteArray1当做一个普通的字节流按照ISO-8859-1解码为一个unicode字符串
  String str2=new String(byteArray1,"ISO-8859-1");

  System.out.println("转成ISO-8859-1会乱码"+str2);

  //将ISO-8859-1编码的unicode字符串转回为byte[]
  byte[] byteArray2=str2.getBytes("ISO-8859-1");//不会丢失数据

  //将字节流重新交回给用户A

  //重新用UTF-8解码
  String str3=new String(byteArray2,"UTF-8");

  System.out.println("数据没有丢失"+str3);
}

输出

unicode字符串用户
6
转成ISO-8859-1会乱码用户
数据没有丢失用户

用GBK中转UTF-8数据

重复前面的流程将ISO-8859-1 用GBK替换。

只把中间一段改掉

    //将byteArray1当做一个普通的字节流按照GBK解码为一个unicode字符串
        String str2=new String(byteArray1,"GBK");

        System.out.println("转成GBK会乱码"+str2);

        //将GBK编码的unicode字符串转回为byte[]
        byte[] byteArray2=str2.getBytes("GBK");//数据会不会丢失呢

运行结果

unicode字符串用户
6
转成GBK会乱码鐢ㄦ埛
数据没有丢失用户

好像没有问题这就是一个误区。

修改原文字符串重新测试

将两个汉字 “用户” 修改为三个汉字 “用户名” 重新测试。

ISO-8859-1测试结果

unicode字符串用户名
9
转成GBK会乱码用户å
数据没有丢失用户名

GBK 测试结果

unicode字符串用户名
9
转成GBK会乱码鐢ㄦ埛鍚
数据没有丢失用户?

结论出来了

ISO-8859-1 可以作为中间编码不会导致数据丢失

GBK 如果汉字数量为偶数不会丢失数据如果汉字数量为奇数必定会丢失数据。

why

为什么奇数个汉字GBK会出错

直接对比两种字符集和奇偶字数的情形

重新封装一下前面的逻辑写一段代码来分析

public static void demo(String str) throws Exception {
  System.out.println("原文" + str);

  byte[] utfByte = str.getBytes("UTF-8");
  System.out.print("utf Byte");
  printHex(utfByte);
  String gbk = new String(utfByte, "GBK");//这里实际上把数据破坏了
  System.out.println("to GBK" + gbk);

  byte[] gbkByte=gbk.getBytes("GBK");
  String utf = new String(gbkByte, "UTF-8");
  System.out.print("gbk Byte");
  printHex(gbkByte);
  System.out.println("revert UTF8" + utf);
  System.out.println("===");
//      如果gbk变成iso-8859-1就没问题
}

public static void printHex(byte[] byteArray) {
  StringBuffer sb = new StringBuffer();
  for (byte b : byteArray) {
    sb.append(Integer.toHexString((b >> 4) & 0xF));
    sb.append(Integer.toHexString(b & 0xF));
    sb.append(" ");
  }
  System.out.println(sb.toString());
};

public static void main(String[] args) throws Exception {
  String str1 = "姓名";
  String str2 = "用户名";
  demo(str1,"UTF-8","ISO-8859-1");
  demo(str2,"UTF-8","ISO-8859-1");

  demo(str1,"UTF-8","GBK");
  demo(str2,"UTF-8","GBK");
}

输出结果

原文姓名
UTF-8 Bytee5 a7 93 e5 90 8d
to ISO-8859-1:姓å
ISO-8859-1 Bytee5 a7 93 e5 90 8d
revert UTF-8姓名
===
原文用户名
UTF-8 Bytee7 94 a8 e6 88 b7 e5 90 8d
to ISO-8859-1:用户å
ISO-8859-1 Bytee7 94 a8 e6 88 b7 e5 90 8d
revert UTF-8用户名
===
原文姓名
UTF-8 Bytee5 a7 93 e5 90 8d
to GBK:濮撳悕
GBK Bytee5 a7 93 e5 90 8d
revert UTF-8姓名
===
原文用户名
UTF-8 Bytee7 94 a8 e6 88 b7 e5 90 8d
to GBK:鐢ㄦ埛鍚
GBK Bytee7 94 a8 e6 88 b7 e5 90 3f
revert UTF-8用户?
===

为什么GBK会出错

前三段都没问题最后一段奇数个汉字的utf-8字节流转成GBK字符串再转回来前面一切正常最后一个字节变成了 “0x3f”即”?”

我们使用”用户名” 三个字来分析它的UTF-8 的字节流为

[e7 94 a8] [e6 88 b7] [e5 90 8d]

我们按照三个字节一组分组他被用户A当做一个整体交给用户B。

用户B由于不知道是什么字符集他当做GBK处理因为GBK是双字节编码如下按照两两一组进行分组

[e7 94] [a8 e6] [88 b7] [e5 90] [8d ]

不够了怎么办它把 0x8d当做一个未知字符用一个半角Ascii字符的 “” 代替变成了

[e7 94] [a8 e6] [88 b7] [e5 90] 3f

数据被破坏了。

为什么 ISO-8859-1 没问题

因为 ISO-8859-1 是单字节编码因此它的分组方案是

[e7] [94] [a8] [e6] [88] [b7] [e5] [90] [8d]

因此中间不做任何操作交回个用户A的时候数据没有变化。

关于Unicode编码

因为UTF-16 区分大小端严格讲unicode==UTF16BE。

public static void main(String[] args) throws Exception {
  String str="测试";
  printHex(str.getBytes("UNICODE"));
  printHex(str.getBytes("UTF-16LE"));
  printHex(str.getBytes("UTF-16BE"));
}

运行结果

fe ff 6d 4b 8b d5
4b 6d d5 8b
6d 4b 8b d5

其中 “fe ff” 为大端消息头同理小端消息头为 “ff fe”。

小结

作为中间转存方案ISO-8859-1 是安全的。

UTF-8 字节流用GBK字符集中转是不安全的反过来也是同样的道理。

byte[] utfByte = str.getBytes("UTF-8");
String gbk = new String(utfByte, "GBK");
这是错误的用法虽然在ISO-8859-1时并没报错。

首先byte[] utfByte = str.getBytes("UTF-8");
执行完成之后utfByte 已经很明确这是utf-8格式的字节流

然后gbk = new String(utfByte, "GBK")
对utf-8的字节流使用gbk解码这是不合规矩的。

就好比一个美国人说一段英语让一个不懂英文又不会学舌的日本人听然后传递消息给另一个美国人。

为什么ISO-8859-1 没问题呢

因为它只认识一个一个的字节就相当于是一个录音机。我管你说的什么鬼话连篇过去直接播放就可以了。

getBytes() 是会丢失数据的操作而且不一定会抛异常。

unicode是安全的因为他是java使用的标准类型跨平台无差异。

目录
相关文章
|
5天前
|
缓存 JavaScript Java
常见java OOM异常分析排查思路分析
Java虚拟机(JVM)遇到内存不足时会抛出OutOfMemoryError(OOM)异常。常见OOM情况包括:1) **Java堆空间不足**:大量对象未被及时回收或内存泄漏;2) **线程栈空间不足**:递归过深或大量线程创建;3) **方法区溢出**:类信息过多,如CGLib代理类生成过多;4) **本机内存不足**:JNI调用消耗大量内存;5) **GC造成的内存不足**:频繁GC但效果不佳。解决方法包括调整JVM参数(如-Xmx、-Xss)、优化代码及使用高效垃圾回收器。
58 15
常见java OOM异常分析排查思路分析
|
1月前
|
Java 程序员
Java 一个 Scanner.nextInt 造成的奇怪问题及分析解决过程
Java 一个 Scanner.nextInt 造成的奇怪问题及分析解决过程
|
11天前
|
缓存 JavaScript Java
常见java OOM异常分析排查思路分析
Java虚拟机(JVM)遇到 OutOfMemoryError(OOM)表示内存资源不足。常见OOM情况包括:1) **Java堆空间不足**:内存被大量对象占用且未及时回收,或内存泄漏;解决方法包括调整JVM堆内存大小、优化代码及修复内存泄漏。2) **线程栈空间不足**:单线程栈帧过大或频繁创建线程;可通过优化代码或调整-Xss参数解决。3) **方法区溢出**:运行时生成大量类导致方法区满载;需调整元空间大小或优化类加载机制。4) **本机内存不足**:JNI调用或内存泄漏引起;需检查并优化本机代码。5) **GC造成的内存不足**:频繁GC但效果不佳;需优化JVM参数、代码及垃圾回收器
常见java OOM异常分析排查思路分析
|
21天前
|
Dubbo Java 关系型数据库
Java SPI机制分析
文章深入分析了Java SPI机制,以JDBC为例,详细探讨了服务提供者接口的发现、加载过程,并提供了一个序列化服务的实战示例,展示了如何使用ServiceLoader进行服务发现和扩展。
16 3
|
21天前
|
监控 算法 安全
Java并发编程案例分析:死锁的检测与解决
Java并发编程案例分析:死锁的检测与解决
16 2
|
22天前
|
安全 Java API
精通 Java 后台开发:案例分析与实践
精通 Java 后台开发:案例分析与实践
28 2
|
23天前
|
Java Maven
【Azure Function App】Java Function部署到Azure后出现中文显示乱码问题
【Azure Function App】Java Function部署到Azure后出现中文显示乱码问题
|
27天前
|
Java
Java系列之:字符串UTF-8 编码格式转换位 UTF-32 【生僻字截取问题】
这篇文章讨论了在Java中处理包含生僻字的字符串时可能遇到的问题,并提供了一种解决方法:将字符串的编码格式从UTF-8转换为UTF-32,以确保每个字符都占用固定的字节数,从而避免在截取操作中破坏字符,示例代码展示了如何进行编码转换和字符串截取。
|
1月前
|
存储 Java 编译器
刷完一千道java笔试题的常见题目分析
这篇文章是关于刷完一千道Java笔试题后的常见题目分析,涵盖了Java基础知识点,如标识符命名规则、抽象类与接口的区别、String类的equals方法、try-catch-finally块的执行逻辑、类与实例方法的区别、this与super关键字的用法、面向对象的基本概念、重写与重载的原则等,并建议结合JVM内存结构图加深理解。
刷完一千道java笔试题的常见题目分析
|
14天前
|
安全 Java API
Java线程池原理与锁机制分析
综上所述,Java线程池和锁机制是并发编程中极其重要的两个部分。线程池主要用于管理线程的生命周期和执行并发任务,而锁机制则用于保障线程安全和防止数据的并发错误。它们深入地结合在一起,成为Java高效并发编程实践中的关键要素。
9 0