Java系列之:字符串UTF-8 编码格式转换位 UTF-32 【生僻字截取问题】

简介: 这篇文章讨论了在Java中处理包含生僻字的字符串时可能遇到的问题,并提供了一种解决方法:将字符串的编码格式从UTF-8转换为UTF-32,以确保每个字符都占用固定的字节数,从而避免在截取操作中破坏字符,示例代码展示了如何进行编码转换和字符串截取。

前言

   在项目开发中遇到这样一个需求,就是要将包含生僻字字符串的首字母屏蔽为 \* ;比如:`𣓃𬱖㛃依䶮` 屏蔽后为 `*𬱖㛃依䶮` 。如果使用一般的`substring()`字符串 截取会出现异常异常,有些生僻字是有两个汉字组合而成。切割的时候 会截取一半、导致剩下部分出现意外。
AI 代码解读

解决方法

   改变字符的编码格式,将UTF-8的编码格式 转换为 UTF-32 的编码格式,这样,每个字符都占用4个字节,截取的时候,按四位字节截取就可以有效解决这个问题。有关UTF-32 编码的介绍如下图
AI 代码解读

在这里插入图片描述

代码案例

方法说明

  • StringgetBytes()方法是得到一个操作系统默认的编码格式的字节数组。例如: byte[] orignalUTF_32 = TransferString.getBytes("UTF-32"); 将得到UTF-32编码格式的字节数组。

  • 与getBytes相对的,可以通过new String(byte[], decode)的方式来还原字符串。例如: String result = new String(afterUTF_32,"UTF-32"); 可以将这个字节数组 再次还原为原来的字符串。

UTF-8 转换为 UTF-32

  String TransferString = "𣓃𬱖㛃依䶮"; 
  byte[] orignalUTF_32 = TransferString.getBytes("UTF-32");
  System.out.println("UTF-32 字节长度:" + orignalUTF_32.length);
AI 代码解读

输出如下:UTF-32 字节长度:20 这个时候,每个字符都占用 4个字节。

看一下如果是UTF-8编码 字节的长度是:

 String TransferString = "𣓃𬱖㛃依䶮"; 
 byte[] orignalUTF_8 = TransferString.getBytes("UTF-8");
 System.out.println("UTF-8 字节长度:" + orignalUTF_8.length);
AI 代码解读

输出如下:UTF-8 字节长度:17 这个时候每个字符 占用字节长度不一致,就不容易处理。

代码实际案例

   中间对字节数组进行截取操作,如果是UTF-32 编码的,四个字节对应一个字符。就可以方便操作。然后将截取后的的字节数组 再次转换为 字符串。
AI 代码解读
    @org.junit.Test
    public void testdemo02(){
        try {
            String TransferString = "𣓃𬱖㛃依䶮"; 
            //处理隐藏第一个字符
            byte[] orignalUTF_32 = TransferString.getBytes("UTF-32");
            int lastIndex = orignalUTF_32.length;
            byte[] afterUTF_32 = Arrays.copyOfRange(orignalUTF_32,4,lastIndex);//截取
            String result = new String(afterUTF_32,"UTF-32");
            String TransferStringSub = "*"+result;
            System.out.println(TransferStringSub);

        }catch (Exception e){

        }
    }
AI 代码解读

查看几个实际转换的例子:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

目录
打赏
0
1
1
0
215
分享
相关文章
|
5月前
|
Java开发实现图片URL地址检验,如何编码?
【10月更文挑战第14天】Java开发实现图片URL地址检验,如何编码?
143 4
|
5月前
|
Java实现随机生成某个省某个市的身份证号?如何编码?
【10月更文挑战第18天】Java实现随机生成某个省某个市的身份证号?如何编码?
309 5
|
5月前
|
Java开发实现图片地址检验,如果无法找到资源则使用默认图片,如何编码?
【10月更文挑战第14天】Java开发实现图片地址检验,如果无法找到资源则使用默认图片,如何编码?
104 2
Java中的字符集编码入门-增补字符(转载)
本文探讨Java对Unicode的支持及其发展历程。文章详细解析了Unicode字符集的结构,包括基本多语言面(BMP)和增补字符的表示方法,以及UTF-16编码中surrogate pair的使用。同时介绍了代码点和代码单元的概念,并解释了UTF-8的编码规则及其兼容性。
113 60
|
4月前
|
java小工具util系列2:字符串工具
java小工具util系列2:字符串工具
175 83
|
4月前
|
Java零基础-字符串详解
【10月更文挑战第18天】Java零基础教学篇,手把手实践教学!
126 60
|
4月前
|
java小工具util系列1:日期和字符串转换工具
java小工具util系列1:日期和字符串转换工具
83 26
java 中操作字符串都有哪些类,它们之间有什么区别
Java中操作字符串的类主要有String、StringBuilder和StringBuffer。String是不可变的,每次操作都会生成新对象;StringBuilder和StringBuffer都是可变的,但StringBuilder是非线程安全的,而StringBuffer是线程安全的,因此性能略低。
116 8
本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制
在现代软件开发中,性能优化至关重要。本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制。通过调整垃圾回收器参数、优化堆大小与布局、使用对象池和缓存技术,开发者可显著提升应用性能和稳定性。
73 6
java基础:IO流 理论与代码示例(详解、idea设置统一utf-8编码问题)
这篇文章详细介绍了Java中的IO流,包括字符与字节的概念、编码格式、File类的使用、IO流的分类和原理,以及通过代码示例展示了各种流的应用,如节点流、处理流、缓存流、转换流、对象流和随机访问文件流。同时,还探讨了IDEA中设置项目编码格式的方法,以及如何处理序列化和反序列化问题。
145 1
java基础:IO流 理论与代码示例(详解、idea设置统一utf-8编码问题)

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等