编码转换问题

简介:
  注意iso-8859-1是JAVA网络传输使用的标准字符集,而gb2312是  
  标准中文字符集,当你作出提交表单等需要网络传输的操作的时候,  
  就需要把 iso-8859-1转换为gb2312字符集显示,否则如果  
  按浏览器的gb2312格式来解释iso-8859-1字符集的话,  
  由于2者不兼容, 所以会 是乱码.
UTF-8三个字节代表一个char
iso-8859-1一个字节代表一个char
GBK两个字节代表一个char

一直以为java中任意unicode字符串可以使用任意字符集转为byte[]再转回来只要不抛出异常就不会丢失数据事实证明这是错的。

经过这个实例也明白了为什么 getBytes()需要捕获异常虽然有时候它也没有捕获到异常。

言归正传先看一个实例。

用ISO-8859-1中转UTF-8数据

设想一个场景

用户A有一个UTF-8编码的字节流通过一个接口传递给用户B

用户B并不知道是什么字符集他用ISO-8859-1来接收保存

在一定的处理流程处理后把这个字节流交给用户C或者交还给用户A他们都知道这是UTF-8他们解码得到的数据不会丢失。

下面代码验证


public static void main(String[] args) throws Exception {
//这是一个unicode字符串与字符集无关
String str1 = "用户";

System.out.println("unicode字符串"+str1);

//将str转为UTF-8字节流
byte[] byteArray1=str1.getBytes("UTF-8");//这个很安全UTF-8不会造成数据丢失

System.out.println(byteArray1.length);//打印6没毛病

//下面交给另外一个人他不知道这是UTF-8字节流因此他当做ISO-8859-1处理

//将byteArray1当做一个普通的字节流按照ISO-8859-1解码为一个unicode字符串
String str2=new String(byteArray1,"ISO-8859-1");

System.out.println("转成ISO-8859-1会乱码"+str2);

//将ISO-8859-1编码的unicode字符串转回为byte[]
byte[] byteArray2=str2.getBytes("ISO-8859-1");//不会丢失数据

//将字节流重新交回给用户A

//重新用UTF-8解码
String str3=new String(byteArray2,"UTF-8");

System.out.println("数据没有丢失"+str3);
}

输出

unicode字符串用户
6
转成ISO-8859-1会乱码用户
数据没有丢失用户

用GBK中转UTF-8数据

重复前面的流程将ISO-8859-1 用GBK替换。

只把中间一段改掉

    //将byteArray1当做一个普通的字节流按照GBK解码为一个unicode字符串
    String str2=<span class="hljs-keyword">new</span> String(byteArray1,<span class="hljs-string">"GBK"</span>);

    System.out.println(<span class="hljs-string">"转成GBK会乱码"</span>+str2);

    <span class="hljs-comment">//将GBK编码的unicode字符串转回为byte[]</span>
    <span class="hljs-keyword">byte</span>[] byteArray2=str2.getBytes(<span class="hljs-string">"GBK"</span>);<span class="hljs-comment">//数据会不会丢失呢</span></code></pre>

运行结果

unicode字符串用户
6
转成GBK会乱码鐢ㄦ埛
数据没有丢失用户

好像没有问题这就是一个误区。

修改原文字符串重新测试

将两个汉字 “用户” 修改为三个汉字 “用户名” 重新测试。

ISO-8859-1测试结果

unicode字符串用户名
9
转成GBK会乱码用户å
数据没有丢失用户名

GBK 测试结果

unicode字符串用户名
9
转成GBK会乱码鐢ㄦ埛鍚
数据没有丢失用户?

结论出来了

ISO-8859-1 可以作为中间编码不会导致数据丢失

GBK 如果汉字数量为偶数不会丢失数据如果汉字数量为奇数必定会丢失数据。

why

为什么奇数个汉字GBK会出错

直接对比两种字符集和奇偶字数的情形

重新封装一下前面的逻辑写一段代码来分析

public static void demo(String str) throws Exception {
System.out.println("原文" + str);

byte[] utfByte = str.getBytes("UTF-8");
System.out.print("utf Byte");
printHex(utfByte);
String gbk = new String(utfByte, "GBK");//这里实际上把数据破坏了
System.out.println("to GBK" + gbk);

byte[] gbkByte=gbk.getBytes("GBK");
String utf = new String(gbkByte, "UTF-8");
System.out.print("gbk Byte");
printHex(gbkByte);
System.out.println("revert UTF8" + utf);
System.out.println("===");
// 如果gbk变成iso-8859-1就没问题
}

public static void printHex(byte[] byteArray) {
StringBuffer sb = new StringBuffer();
for (byte b : byteArray) {

sb.append(Integer.toHexString((b &gt;&gt; <span class="hljs-number">4</span>) &amp; <span class="hljs-number">0xF</span>));
sb.append(Integer.toHexString(b &amp; <span class="hljs-number">0xF</span>));
sb.append(<span class="hljs-string">" "</span>);

}
System.out.println(sb.toString());
};

public static void main(String[] args) throws Exception {
String str1 = "姓名";
String str2 = "用户名";
demo(str1,"UTF-8","ISO-8859-1");
demo(str2,"UTF-8","ISO-8859-1");

demo(str1,"UTF-8","GBK");
demo(str2,"UTF-8","GBK");
}

输出结果

原文姓名
UTF-8 Bytee5 a7 93 e5 90 8d
to ISO-8859-1:å§“å
ISO-8859-1 Bytee5 a7 93 e5 90 8d
revert UTF-8姓名
===

原文用户名
UTF-8 Bytee7 94 a8 e6 88 b7 e5 90 8d
to ISO-8859-1:用户å
ISO-8859-1 Bytee7 94 a8 e6 88 b7 e5 90 8d
revert UTF-8用户名
===

原文姓名
UTF-8 Bytee5 a7 93 e5 90 8d
to GBK:濮撳悕
GBK Bytee5 a7 93 e5 90 8d
revert UTF-8姓名
===

原文用户名
UTF-8 Bytee7 94 a8 e6 88 b7 e5 90 8d
to GBK:鐢ㄦ埛鍚
GBK Bytee7 94 a8 e6 88 b7 e5 90 3f
revert UTF-8用户?
===

为什么GBK会出错

前三段都没问题最后一段奇数个汉字的utf-8字节流转成GBK字符串再转回来前面一切正常最后一个字节变成了 “0x3f”即”?”

我们使用”用户名” 三个字来分析它的UTF-8 的字节流为

[e7 94 a8] [e6 88 b7] [e5 90 8d]

我们按照三个字节一组分组他被用户A当做一个整体交给用户B。

用户B由于不知道是什么字符集他当做GBK处理因为GBK是双字节编码如下按照两两一组进行分组

[e7 94] [a8 e6] [88 b7] [e5 90] [8d ]

不够了怎么办它把 0x8d当做一个未知字符用一个半角Ascii字符的 “” 代替变成了

[e7 94] [a8 e6] [88 b7] [e5 90] 3f

数据被破坏了。

为什么 ISO-8859-1 没问题

因为 ISO-8859-1 是单字节编码因此它的分组方案是

[e7] [94] [a8] [e6] [88] [b7] [e5] [90] [8d]

因此中间不做任何操作交回个用户A的时候数据没有变化。

关于Unicode编码

因为UTF-16 区分大小端严格讲unicode==UTF16BE。

public static void main(String[] args) throws Exception {
String str="测试";
printHex(str.getBytes("UNICODE"));
printHex(str.getBytes("UTF-16LE"));
printHex(str.getBytes("UTF-16BE"));
}

运行结果

fe ff 6d 4b 8b d5
4b 6d d5 8b
6d 4b 8b d5

其中 “fe ff” 为大端消息头同理小端消息头为 “ff fe”。

小结

作为中间转存方案ISO-8859-1 是安全的。

UTF-8 字节流用GBK字符集中转是不安全的反过来也是同样的道理。

byte[] utfByte = str.getBytes("UTF-8");
String gbk = new String(utfByte, "GBK");
这是错误的用法虽然在ISO-8859-1时并没报错。

首先byte[] utfByte = str.getBytes("UTF-8");
执行完成之后utfByte 已经很明确这是utf-8格式的字节流

然后gbk = new String(utfByte, "GBK")
对utf-8的字节流使用gbk解码这是不合规矩的。

就好比一个美国人说一段英语让一个不懂英文又不会学舌的日本人听然后传递消息给另一个美国人。

为什么ISO-8859-1 没问题呢

因为它只认识一个一个的字节就相当于是一个录音机。我管你说的什么鬼话连篇过去直接播放就可以了。

getBytes() 是会丢失数据的操作而且不一定会抛异常。

unicode是安全的因为他是java使用的标准类型跨平台无差异。

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 数据可视化
基于YOLOv8的河道垃圾塑料瓶子识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
本项目基于YOLOv8与PyQt5,打造了一套完整的河道垃圾(塑料瓶)智能识别系统。支持图片、视频、摄像头等多种输入方式,提供开箱即用的检测功能和详细训练教程。包含2万张标注数据集、预训练权重及图形化界面,适合AI环保课题开发、工程实践或毕设选题。运行`main.py`即可快速启动,助力智能化水体管理与可持续发展!
基于YOLOv8的河道垃圾塑料瓶子识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
|
11月前
|
前端开发 测试技术 数据处理
Kotlin教程笔记 - MVP与MVVM架构设计的对比
Kotlin教程笔记 - MVP与MVVM架构设计的对比
334 4
|
8月前
|
Android开发 开发者 Kotlin
Android实战经验之Kotlin中快速实现MVI架构
MVI架构通过单向数据流和不可变状态,提供了一种清晰、可预测的状态管理方式。在Kotlin中实现MVI架构,不仅提高了代码的可维护性和可测试性,还能更好地应对复杂的UI交互和状态管理。通过本文的介绍,希望开发者能够掌握MVI架构的核心思想,并在实际项目中灵活应用。
380 8
|
JavaScript Linux 网络安全
VS Code远程调试Nodejs项目
VS Code远程调试Nodejs项目
|
机器学习/深度学习 监控
在进行多任务学习时,如何确保模型不会过度拟合单一任务而忽视其他任务?
在进行多任务学习时,如何确保模型不会过度拟合单一任务而忽视其他任务?
214 2
|
11月前
|
前端开发 Java 测试技术
android MVP契约类架构模式与MVVM架构模式,哪种架构模式更好?
android MVP契约类架构模式与MVVM架构模式,哪种架构模式更好?
345 0
|
SQL JSON 分布式数据库
实时计算 Flink版产品使用合集之 Flink 与 Debezium 进行数据同步时,遇到 DDL 中文乱码如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
277 0
|
SQL Java 数据库连接
一篇看懂Mybatis的SqlSession运行原理
SqlSession是Mybatis最重要的构建之一,可以简单的认为Mybatis一系列的配置目的是生成类似 JDBC生成的Connection对象的SqlSession对象,这样才能与数据库开启“沟通”,通过SqlSession可以实现增删改查(当然现在更加推荐是使用Mapper接口形式),那么它是如何执行实现的,这就是本篇博文所介绍的东西,其中会涉及到简单的源码讲解。
359 1
|
Linux Docker 容器
Docker安装实例
Docker安装实例
179 0
|
安全 Android开发 数据安全/隐私保护
安卓逆向 -- SO文件逆向分析
安卓逆向 -- SO文件逆向分析
213 0