再谈java乱码:GBK和UTF-8互转尾部乱码问题分析

简介: 一直以为,java中任意unicode字符串,可以使用任意字符集转为byte[]再转回来,只要不抛出异常就不会丢失数据,事实证明这是错的。

一直以为java中任意unicode字符串可以使用任意字符集转为byte[]再转回来只要不抛出异常就不会丢失数据事实证明这是错的。

经过这个实例也明白了为什么 getBytes()需要捕获异常虽然有时候它也没有捕获到异常。

言归正传先看一个实例。

用ISO-8859-1中转UTF-8数据

设想一个场景

用户A有一个UTF-8编码的字节流通过一个接口传递给用户B

用户B并不知道是什么字符集他用ISO-8859-1来接收保存

在一定的处理流程处理后把这个字节流交给用户C或者交还给用户A他们都知道这是UTF-8他们解码得到的数据不会丢失。

下面代码验证

public static void main(String[] args) throws Exception {
  //这是一个unicode字符串与字符集无关
  String str1 = "用户";

  System.out.println("unicode字符串"+str1);

  //将str转为UTF-8字节流
  byte[] byteArray1=str1.getBytes("UTF-8");//这个很安全UTF-8不会造成数据丢失

  System.out.println(byteArray1.length);//打印6没毛病

  //下面交给另外一个人他不知道这是UTF-8字节流因此他当做ISO-8859-1处理

  //将byteArray1当做一个普通的字节流按照ISO-8859-1解码为一个unicode字符串
  String str2=new String(byteArray1,"ISO-8859-1");

  System.out.println("转成ISO-8859-1会乱码"+str2);

  //将ISO-8859-1编码的unicode字符串转回为byte[]
  byte[] byteArray2=str2.getBytes("ISO-8859-1");//不会丢失数据

  //将字节流重新交回给用户A

  //重新用UTF-8解码
  String str3=new String(byteArray2,"UTF-8");

  System.out.println("数据没有丢失"+str3);
}

输出

unicode字符串用户
6
转成ISO-8859-1会乱码用户
数据没有丢失用户

用GBK中转UTF-8数据

重复前面的流程将ISO-8859-1 用GBK替换。

只把中间一段改掉

    //将byteArray1当做一个普通的字节流按照GBK解码为一个unicode字符串
        String str2=new String(byteArray1,"GBK");

        System.out.println("转成GBK会乱码"+str2);

        //将GBK编码的unicode字符串转回为byte[]
        byte[] byteArray2=str2.getBytes("GBK");//数据会不会丢失呢

运行结果

unicode字符串用户
6
转成GBK会乱码鐢ㄦ埛
数据没有丢失用户

好像没有问题这就是一个误区。

修改原文字符串重新测试

将两个汉字 “用户” 修改为三个汉字 “用户名” 重新测试。

ISO-8859-1测试结果

unicode字符串用户名
9
转成GBK会乱码用户å
数据没有丢失用户名

GBK 测试结果

unicode字符串用户名
9
转成GBK会乱码鐢ㄦ埛鍚
数据没有丢失用户?

结论出来了

ISO-8859-1 可以作为中间编码不会导致数据丢失

GBK 如果汉字数量为偶数不会丢失数据如果汉字数量为奇数必定会丢失数据。

why

为什么奇数个汉字GBK会出错

直接对比两种字符集和奇偶字数的情形

重新封装一下前面的逻辑写一段代码来分析

public static void demo(String str) throws Exception {
  System.out.println("原文" + str);

  byte[] utfByte = str.getBytes("UTF-8");
  System.out.print("utf Byte");
  printHex(utfByte);
  String gbk = new String(utfByte, "GBK");//这里实际上把数据破坏了
  System.out.println("to GBK" + gbk);

  byte[] gbkByte=gbk.getBytes("GBK");
  String utf = new String(gbkByte, "UTF-8");
  System.out.print("gbk Byte");
  printHex(gbkByte);
  System.out.println("revert UTF8" + utf);
  System.out.println("===");
//      如果gbk变成iso-8859-1就没问题
}

public static void printHex(byte[] byteArray) {
  StringBuffer sb = new StringBuffer();
  for (byte b : byteArray) {
    sb.append(Integer.toHexString((b >> 4) & 0xF));
    sb.append(Integer.toHexString(b & 0xF));
    sb.append(" ");
  }
  System.out.println(sb.toString());
};

public static void main(String[] args) throws Exception {
  String str1 = "姓名";
  String str2 = "用户名";
  demo(str1,"UTF-8","ISO-8859-1");
  demo(str2,"UTF-8","ISO-8859-1");

  demo(str1,"UTF-8","GBK");
  demo(str2,"UTF-8","GBK");
}

输出结果

原文姓名
UTF-8 Bytee5 a7 93 e5 90 8d
to ISO-8859-1:å§“å
ISO-8859-1 Bytee5 a7 93 e5 90 8d
revert UTF-8姓名
===
原文用户名
UTF-8 Bytee7 94 a8 e6 88 b7 e5 90 8d
to ISO-8859-1:用户å
ISO-8859-1 Bytee7 94 a8 e6 88 b7 e5 90 8d
revert UTF-8用户名
===
原文姓名
UTF-8 Bytee5 a7 93 e5 90 8d
to GBK:濮撳悕
GBK Bytee5 a7 93 e5 90 8d
revert UTF-8姓名
===
原文用户名
UTF-8 Bytee7 94 a8 e6 88 b7 e5 90 8d
to GBK:鐢ㄦ埛鍚
GBK Bytee7 94 a8 e6 88 b7 e5 90 3f
revert UTF-8用户?
===

为什么GBK会出错

前三段都没问题最后一段奇数个汉字的utf-8字节流转成GBK字符串再转回来前面一切正常最后一个字节变成了 “0x3f”即”?”

我们使用”用户名” 三个字来分析它的UTF-8 的字节流为

[e7 94 a8] [e6 88 b7] [e5 90 8d]

我们按照三个字节一组分组他被用户A当做一个整体交给用户B。

用户B由于不知道是什么字符集他当做GBK处理因为GBK是双字节编码如下按照两两一组进行分组

[e7 94] [a8 e6] [88 b7] [e5 90] [8d ]

不够了怎么办它把 0x8d当做一个未知字符用一个半角Ascii字符的 “” 代替变成了

[e7 94] [a8 e6] [88 b7] [e5 90] 3f

数据被破坏了。

为什么 ISO-8859-1 没问题

因为 ISO-8859-1 是单字节编码因此它的分组方案是

[e7] [94] [a8] [e6] [88] [b7] [e5] [90] [8d]

因此中间不做任何操作交回个用户A的时候数据没有变化。

关于Unicode编码

因为UTF-16 区分大小端严格讲unicode==UTF16BE。

public static void main(String[] args) throws Exception {
  String str="测试";
  printHex(str.getBytes("UNICODE"));
  printHex(str.getBytes("UTF-16LE"));
  printHex(str.getBytes("UTF-16BE"));
}

运行结果

fe ff 6d 4b 8b d5
4b 6d d5 8b
6d 4b 8b d5

其中 “fe ff” 为大端消息头同理小端消息头为 “ff fe”。

小结

作为中间转存方案ISO-8859-1 是安全的。

UTF-8 字节流用GBK字符集中转是不安全的反过来也是同样的道理。

byte[] utfByte = str.getBytes("UTF-8");
String gbk = new String(utfByte, "GBK");
这是错误的用法虽然在ISO-8859-1时并没报错。

首先byte[] utfByte = str.getBytes("UTF-8");
执行完成之后utfByte 已经很明确这是utf-8格式的字节流

然后gbk = new String(utfByte, "GBK")
对utf-8的字节流使用gbk解码这是不合规矩的。

就好比一个美国人说一段英语让一个不懂英文又不会学舌的日本人听然后传递消息给另一个美国人。

为什么ISO-8859-1 没问题呢

因为它只认识一个一个的字节就相当于是一个录音机。我管你说的什么鬼话连篇过去直接播放就可以了。

getBytes() 是会丢失数据的操作而且不一定会抛异常。

unicode是安全的因为他是java使用的标准类型跨平台无差异。

目录
相关文章
|
6月前
|
安全 Java 编译器
new出来的对象,不一定在堆上?聊聊Java虚拟机的优化技术:逃逸分析
逃逸分析是一种静态程序分析技术,用于判断对象的可见性与生命周期。它帮助即时编译器优化内存使用、降低同步开销。根据对象是否逃逸出方法或线程,分析结果分为未逃逸、方法逃逸和线程逃逸三种。基于分析结果,编译器可进行同步锁消除、标量替换和栈上分配等优化,从而提升程序性能。尽管逃逸分析计算复杂度较高,但其在热点代码中的应用为Java虚拟机带来了显著的优化效果。
210 4
|
10月前
|
监控 Java Unix
6个Java 工具,轻松分析定位 JVM 问题 !
本文介绍了如何使用 JDK 自带工具查看和分析 JVM 的运行情况。通过编写一段测试代码(启动 10 个死循环线程,分配大量内存),结合常用工具如 `jps`、`jinfo`、`jstat`、`jstack`、`jvisualvm` 和 `jcmd` 等,详细展示了 JVM 参数配置、内存使用、线程状态及 GC 情况的监控方法。同时指出了一些常见问题,例如参数设置错误导致的内存异常,并通过实例说明了如何排查和解决。最后附上了官方文档链接,方便进一步学习。
1748 4
|
4月前
|
存储 Java Go
【Java】(3)8种基本数据类型的分析、数据类型转换规则、转义字符的列举
牢记类型转换规则在脑海中将编译和运行两个阶段分开,这是两个不同的阶段,不要弄混!
279 2
|
4月前
|
Java Go 开发工具
【Java】(9)抽象类、接口、内部的运用与作用分析,枚举类型的使用
抽象类必须使用abstract修饰符来修饰,抽象方法也必须使用abstract修饰符来修饰,抽象方法不能有方法体。抽象类不能被实例化,无法使用new关键字来调用抽象类的构造器创建抽象类的实例。抽象类可以包含成员变量、方法(普通方法和抽象方法都可以)、构造器、初始化块、内部类(接 口、枚举)5种成分。抽象类的构造器不能用于创建实例,主要是用于被其子类调用。抽象类中不一定包含抽象方法,但是有抽象方法的类必定是抽象类abstract static不能同时修饰一个方法。
269 1
|
5月前
|
数据采集 存储 弹性计算
高并发Java爬虫的瓶颈分析与动态线程优化方案
高并发Java爬虫的瓶颈分析与动态线程优化方案
|
6月前
|
机器学习/深度学习 安全 Java
Java 大视界 -- Java 大数据在智能金融反洗钱监测与交易异常分析中的应用(224)
本文探讨 Java 大数据在智能金融反洗钱监测与交易异常分析中的应用,介绍其在数据处理、机器学习建模、实战案例及安全隐私等方面的技术方案与挑战,展现 Java 在金融风控中的强大能力。
|
8月前
|
数据采集 搜索推荐 算法
Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)
本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。
|
7月前
|
存储 Java 大数据
Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用(198)
简介:本文探讨Java大数据技术在智能家居能源消耗分析与节能策略中的应用。通过数据采集、存储与智能分析,构建能耗模型,挖掘用电模式,制定设备调度策略,实现节能目标。结合实际案例,展示Java大数据在智能家居节能中的关键作用。
|
8月前
|
Java 数据库连接 API
互联网大厂校招 JAVA 工程师笔试题解析及常见考点分析
本文深入解析互联网大厂校招Java工程师笔试题,涵盖基础知识(数据类型、流程控制)、面向对象编程(类与对象、继承与多态)、数据结构与算法(数组、链表、排序算法)、异常处理、集合框架、Java 8+新特性(Lambda表达式、Stream API)、多线程与并发、IO与NIO、数据库操作(JDBC、ORM框架MyBatis)及Spring框架基础(IoC、DI、AOP)。通过技术方案讲解与实例演示,助你掌握核心考点,提升解题能力。
334 2
|
9月前
|
人工智能 Java
Java参数传递分析
本文详细探讨了Java中参数传递的机制,明确指出Java采用的是值传递而非引用传递。通过基本数据类型(如int)和引用类型(如Map、自定义对象People)的实例测试,证明方法内部对参数的修改不会影响原始变量。即使在涉及赋值返回的操作中,表面上看似引用传递,实际仍是值传递的结果。文中结合代码示例与执行结果,深入解析了值传递的本质及容易引起混淆的情形,帮助读者准确理解Java参数传递的核心概念。
197 7