Java系列之:字符串UTF-8 编码格式转换位 UTF-32 【生僻字截取问题】

简介: 这篇文章讨论了在Java中处理包含生僻字的字符串时可能遇到的问题,并提供了一种解决方法:将字符串的编码格式从UTF-8转换为UTF-32,以确保每个字符都占用固定的字节数,从而避免在截取操作中破坏字符,示例代码展示了如何进行编码转换和字符串截取。

前言

   在项目开发中遇到这样一个需求,就是要将包含生僻字字符串的首字母屏蔽为 \* ;比如:`𣓃𬱖㛃依䶮` 屏蔽后为 `*𬱖㛃依䶮` 。如果使用一般的`substring()`字符串 截取会出现异常异常,有些生僻字是有两个汉字组合而成。切割的时候 会截取一半、导致剩下部分出现意外。
AI 代码解读

解决方法

   改变字符的编码格式,将UTF-8的编码格式 转换为 UTF-32 的编码格式,这样,每个字符都占用4个字节,截取的时候,按四位字节截取就可以有效解决这个问题。有关UTF-32 编码的介绍如下图
AI 代码解读

在这里插入图片描述

代码案例

方法说明

  • StringgetBytes()方法是得到一个操作系统默认的编码格式的字节数组。例如: byte[] orignalUTF_32 = TransferString.getBytes("UTF-32"); 将得到UTF-32编码格式的字节数组。

  • 与getBytes相对的,可以通过new String(byte[], decode)的方式来还原字符串。例如: String result = new String(afterUTF_32,"UTF-32"); 可以将这个字节数组 再次还原为原来的字符串。

UTF-8 转换为 UTF-32

  String TransferString = "𣓃𬱖㛃依䶮"; 
  byte[] orignalUTF_32 = TransferString.getBytes("UTF-32");
  System.out.println("UTF-32 字节长度:" + orignalUTF_32.length);
AI 代码解读

输出如下:UTF-32 字节长度:20 这个时候,每个字符都占用 4个字节。

看一下如果是UTF-8编码 字节的长度是:

 String TransferString = "𣓃𬱖㛃依䶮"; 
 byte[] orignalUTF_8 = TransferString.getBytes("UTF-8");
 System.out.println("UTF-8 字节长度:" + orignalUTF_8.length);
AI 代码解读

输出如下:UTF-8 字节长度:17 这个时候每个字符 占用字节长度不一致,就不容易处理。

代码实际案例

   中间对字节数组进行截取操作,如果是UTF-32 编码的,四个字节对应一个字符。就可以方便操作。然后将截取后的的字节数组 再次转换为 字符串。
AI 代码解读
    @org.junit.Test
    public void testdemo02(){
        try {
            String TransferString = "𣓃𬱖㛃依䶮"; 
            //处理隐藏第一个字符
            byte[] orignalUTF_32 = TransferString.getBytes("UTF-32");
            int lastIndex = orignalUTF_32.length;
            byte[] afterUTF_32 = Arrays.copyOfRange(orignalUTF_32,4,lastIndex);//截取
            String result = new String(afterUTF_32,"UTF-32");
            String TransferStringSub = "*"+result;
            System.out.println(TransferStringSub);

        }catch (Exception e){

        }
    }
AI 代码解读

查看几个实际转换的例子:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

相关文章
|
6月前
|
Java开发实现图片URL地址检验,如何编码?
【10月更文挑战第14天】Java开发实现图片URL地址检验,如何编码?
192 4
Java 字符串详解
本文介绍了 Java 中的三种字符串类型:String、StringBuffer 和 StringBuilder,详细讲解了它们的区别与使用场景。String 是不可变的字符串常量,线程安全但操作效率较低;StringBuffer 是可变的字符串缓冲区,线程安全但性能稍逊;StringBuilder 同样是可变的字符串缓冲区,但非线程安全,性能更高。文章还列举了三者的常用方法,并总结了它们在不同环境下的适用情况及执行速度对比。
74 17
Java字符串缓冲区
字符串缓冲区是用于处理可变字符串的容器,Java中提供了`StringBuffer`和`StringBuilder`两种实现。由于`String`类不可变,当需要频繁修改字符串时,使用缓冲区更高效。`StringBuffer`是一个线程安全的容器,支持动态扩展、任意类型数据转为字符串存储,并提供多种操作方法(如`append`、`insert`、`delete`等)。通过这些方法,可以方便地对字符串进行添加、插入、删除等操作,最终将结果转换为字符串。示例代码展示了如何创建缓冲区对象并调用相关方法完成字符串操作。
53 13
|
6月前
|
Java实现随机生成某个省某个市的身份证号?如何编码?
【10月更文挑战第18天】Java实现随机生成某个省某个市的身份证号?如何编码?
418 5
|
6月前
|
Java开发实现图片地址检验,如果无法找到资源则使用默认图片,如何编码?
【10月更文挑战第14天】Java开发实现图片地址检验,如果无法找到资源则使用默认图片,如何编码?
137 2
Java中的字符集编码入门-增补字符(转载)
本文探讨Java对Unicode的支持及其发展历程。文章详细解析了Unicode字符集的结构,包括基本多语言面(BMP)和增补字符的表示方法,以及UTF-16编码中surrogate pair的使用。同时介绍了代码点和代码单元的概念,并解释了UTF-8的编码规则及其兼容性。
136 60
|
5月前
|
java小工具util系列2:字符串工具
java小工具util系列2:字符串工具
199 83
|
5月前
|
Java零基础-字符串详解
【10月更文挑战第18天】Java零基础教学篇,手把手实践教学!
137 60
|
5月前
|
java小工具util系列1:日期和字符串转换工具
java小工具util系列1:日期和字符串转换工具
112 26
java 中操作字符串都有哪些类,它们之间有什么区别
Java中操作字符串的类主要有String、StringBuilder和StringBuffer。String是不可变的,每次操作都会生成新对象;StringBuilder和StringBuffer都是可变的,但StringBuilder是非线程安全的,而StringBuffer是线程安全的,因此性能略低。
178 8