Java系列之:字符串UTF-8 编码格式转换位 UTF-32 【生僻字截取问题】

简介: 这篇文章讨论了在Java中处理包含生僻字的字符串时可能遇到的问题,并提供了一种解决方法:将字符串的编码格式从UTF-8转换为UTF-32,以确保每个字符都占用固定的字节数,从而避免在截取操作中破坏字符,示例代码展示了如何进行编码转换和字符串截取。

前言

   在项目开发中遇到这样一个需求,就是要将包含生僻字字符串的首字母屏蔽为 \* ;比如:`𣓃𬱖㛃依䶮` 屏蔽后为 `*𬱖㛃依䶮` 。如果使用一般的`substring()`字符串 截取会出现异常异常,有些生僻字是有两个汉字组合而成。切割的时候 会截取一半、导致剩下部分出现意外。

解决方法

   改变字符的编码格式,将UTF-8的编码格式 转换为 UTF-32 的编码格式,这样,每个字符都占用4个字节,截取的时候,按四位字节截取就可以有效解决这个问题。有关UTF-32 编码的介绍如下图

在这里插入图片描述

代码案例

方法说明

  • StringgetBytes()方法是得到一个操作系统默认的编码格式的字节数组。例如: byte[] orignalUTF_32 = TransferString.getBytes("UTF-32"); 将得到UTF-32编码格式的字节数组。

  • 与getBytes相对的,可以通过new String(byte[], decode)的方式来还原字符串。例如: String result = new String(afterUTF_32,"UTF-32"); 可以将这个字节数组 再次还原为原来的字符串。

UTF-8 转换为 UTF-32

  String TransferString = "𣓃𬱖㛃依䶮"; 
  byte[] orignalUTF_32 = TransferString.getBytes("UTF-32");
  System.out.println("UTF-32 字节长度:" + orignalUTF_32.length);

输出如下:UTF-32 字节长度:20 这个时候,每个字符都占用 4个字节。

看一下如果是UTF-8编码 字节的长度是:

 String TransferString = "𣓃𬱖㛃依䶮"; 
 byte[] orignalUTF_8 = TransferString.getBytes("UTF-8");
 System.out.println("UTF-8 字节长度:" + orignalUTF_8.length);

输出如下:UTF-8 字节长度:17 这个时候每个字符 占用字节长度不一致,就不容易处理。

代码实际案例

   中间对字节数组进行截取操作,如果是UTF-32 编码的,四个字节对应一个字符。就可以方便操作。然后将截取后的的字节数组 再次转换为 字符串。
    @org.junit.Test
    public void testdemo02(){
        try {
            String TransferString = "𣓃𬱖㛃依䶮"; 
            //处理隐藏第一个字符
            byte[] orignalUTF_32 = TransferString.getBytes("UTF-32");
            int lastIndex = orignalUTF_32.length;
            byte[] afterUTF_32 = Arrays.copyOfRange(orignalUTF_32,4,lastIndex);//截取
            String result = new String(afterUTF_32,"UTF-32");
            String TransferStringSub = "*"+result;
            System.out.println(TransferStringSub);

        }catch (Exception e){

        }
    }

查看几个实际转换的例子:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

相关文章
|
20天前
|
安全 Java API
【Java字符串操作秘籍】StringBuffer与StringBuilder的终极对决!
【8月更文挑战第25天】在Java中处理字符串时,经常需要修改字符串,但由于`String`对象的不可变性,频繁修改会导致内存浪费和性能下降。为此,Java提供了`StringBuffer`和`StringBuilder`两个类来操作可变字符串序列。`StringBuffer`是线程安全的,适用于多线程环境,但性能略低;`StringBuilder`非线程安全,但在单线程环境中性能更优。两者基本用法相似,通过`append`等方法构建和修改字符串。
44 1
|
16天前
|
安全 Java API
告别繁琐编码,拥抱Java 8新特性:Stream API与Optional类助你高效编程,成就卓越开发者!
【8月更文挑战第29天】Java 8为开发者引入了多项新特性,其中Stream API和Optional类尤其值得关注。Stream API对集合操作进行了高级抽象,支持声明式的数据处理,避免了显式循环代码的编写;而Optional类则作为非空值的容器,有效减少了空指针异常的风险。通过几个实战示例,我们展示了如何利用Stream API进行过滤与转换操作,以及如何借助Optional类安全地处理可能为null的数据,从而使代码更加简洁和健壮。
47 0
|
5天前
|
算法 Oracle Java
Java字符串拼接技术演进及阿里巴巴的贡献
本文主要讲述了Java字符串拼接技术的演进历程,以及阿里巴巴贡献的最新实现 PR 20273。
|
10天前
|
算法 Oracle Java
Java字符串拼接技术演进及阿里巴巴的贡献
本文主要讲述了Java字符串拼接技术的演进历程,以及阿里巴巴贡献的最新实现 PR 20273。
|
22天前
|
存储 Java
|
22天前
|
存储 Java
如何在 Java 中打印字符串数组列表
【8月更文挑战第23天】
26 2
|
22天前
|
存储 Java API
|
24天前
|
Java 测试技术
Java系列之判断字符串是为空或者null
这篇文章介绍了如何在Java中使用`isEmpty()`方法判断字符串是否为空或`null`,并提供了相应的测试用例来演示其用法。
|
24天前
|
Java
Java系列 之除字符串中的空格(trim())
这篇文章介绍了Java中`String`类的`trim()`方法,用于去除字符串首尾的空格,并指出`trim()`只能去除半角空格,对于全角空格需要先用`replace()`方法替换成半角空格再进行去除。