UTF-8编码中的特殊空格之C2 A0 -> NO-BREAK SPACE

简介: UTF-8编码中的特殊空格之C2 A0 -> NO-BREAK SPACE

异常数据追踪

最近发现数据库中的一个字段值数据异常的问题,业务场景中不允许这个字符串字段中出现空格,但是发现有部分数据依然有'空格',反复验证过之后发现自己写的代码的的确确会把空格trim掉,反复调试后发现代码没有问题,但是什么情况使得这些数据逃过了业务代码的校验?

准备破案

难道我肉眼看到的'空格',不是我们平常见到或者理解的'空格'?

带着这个疑问,我搜索了一下相关的问题,发现果不其然,很多人都遇到了C2 A0这个不可见字符,那么这个字符到底是什么呢?

打开UTF-8的编码表,https://www.utf8-chartable.de/unicode-utf8-table.pl?utf8=dec 找到对应的字符

首先明确C2 A0代表的编码序号是多少,很显然我们只需要将这个十六进制转为十进制,即C2=194 A0=160,这个在编码表中对应的是

U+00A0   194 160 NO-BREAK SPACE

而我们一般意义上将的空格的编码是32

U+0020   32 SPACE

那们我们通过代码来模拟一下上面两个字符

普通的空格 Unicode code point为U+0020即32

C2 A0空格 Unicode code point为U+00A0即160

找到原因之后,我们想办法把这种C2 A0空格给去除掉

源代码见下

package com.lingyejun.dating.chap11;
import java.nio.charset.StandardCharsets;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class SpecialSpace {
    public static void main(String[] args) {
        String str1 = "lingyejun ";
        byte[] str1Bytes = str1.getBytes();
        String space = new String(str1Bytes, StandardCharsets.UTF_8);
        System.out.println("带有32 Space的字符串:" + space);
        System.out.println("使用trim去掉32 -> Space:" + space.trim());
        byte[] str2Bytes = new byte[11];
        System.arraycopy(str1Bytes, 0, str2Bytes, 0, str1Bytes.length);
        str2Bytes[9] = (byte) 0xC2;
        str2Bytes[10] = (byte) 0xA0;
        String noBreakSpace = new String(str2Bytes, StandardCharsets.UTF_8);
        System.out.println("带有C2 A0 -> NO-BREAK SPACE的字符串:" + noBreakSpace);
        System.out.println("使用trim无法去掉C2 A0 -> NO-BREAK SPACE:" + noBreakSpace.trim());
        // 32为我们平常谈论的Space空格 -> SPACE
        byte[] bytes1 = new byte[]{(byte) 0x20};
        String space1 = new String(bytes1, StandardCharsets.UTF_8);
        System.out.println("UTF-8 字符编码号32 -> 0x1F 输出:" + space1);
        // 0xC2=194 0xA0=160  -> NO-BREAK SPACE
        byte[] bytes2 = new byte[]{(byte) 0xC2, (byte) 0xA0};
        String space2 = new String(bytes2, StandardCharsets.UTF_8);
        char[] chars3 = space2.toCharArray();
        System.out.println("UTF-8 字符编码号194 -> 0xC2 160 -> 0xA0 输出:" + space2);
        byte[] bytes3 = new byte[]{(byte) 0xC2, (byte) 0xA0};
        String c2a0Space = new String(bytes3, StandardCharsets.UTF_8);
        Pattern p = Pattern.compile(c2a0Space);
        Matcher m = null;
        m = p.matcher(noBreakSpace);
        noBreakSpace = m.replaceAll("");
        System.out.println("使用正则去掉C2 A0 -> NO-BREAK SPACE:" + noBreakSpace);
    }
}

如果对您有帮助,请不要忘了给翎野君点赞。

目录
相关文章
|
5月前
|
SQL 存储 关系型数据库
MySQL内存引擎:Memory存储引擎的适用场景
MySQL Memory存储引擎将数据存储在内存中,提供极速读写性能,适用于会话存储、临时数据处理、高速缓存和实时统计等场景。但其数据在服务器重启后会丢失,不适合持久化存储、大容量数据及高并发写入场景。本文深入解析其特性、原理、适用场景与限制,并提供性能优化技巧及替代方案比较,助你合理利用这一“内存闪电”。
|
Java 中间件 流计算
Flink 如何分流数据
Flink 如何分流数据,3种分流方式
4405 0
|
7月前
|
算法 NoSQL Java
票据系统全流程解析:业务与技术实现
本项目为电子票据系统,基于微服务架构实现票据全生命周期管理,涵盖出票、背书、贴现、质押、到期兑付等核心业务流程。系统对接上海票据交易所,采用国密算法加密传输,保障交易安全。技术上使用Seata解决分布式事务一致性,通过RabbitMQ和线程池提升高并发处理能力,结合Redis实现分布式锁与数据缓存,提升系统性能与可靠性。
439 0
票据系统全流程解析:业务与技术实现
|
存储 SQL 算法
一文教你玩转 Apache Doris 分区分桶新功能|新版本揭秘
一文教你玩转 Apache Doris 分区分桶新功能|新版本揭秘
1320 0
|
关系型数据库 MySQL 数据库
一个 MySQL 数据库死锁的案例和解决方案
本文介绍了一个 MySQL 数据库死锁的案例和解决方案。
865 3
|
消息中间件 存储 监控
Django后端架构开发:Celery异步调优,任务队列和调度
Django后端架构开发:Celery异步调优,任务队列和调度
655 1
|
弹性计算 应用服务中间件 Linux
双剑合璧:在同一ECS服务器上共存Apache与Nginx的实战攻略
在ECS服务器上同时部署Apache和Nginx的实战:安装更新系统,Ubuntu用`sudo apt install apache2 nginx`,CentOS用`sudo yum install httpd nginx`。配置Nginx作为反向代理,处理静态内容及转发动态请求到Apache(监听8080端口)。调整Apache的`ports.conf`监听8080。重启服务测试,实现两者高效协同,提升Web服务性能。记得根据流量和需求优化配置。【6月更文挑战第21天】
1425 1
|
前端开发 Java Spring
掌握@ControllerAdvice配合RequestBodyAdvice/ResponseBodyAdvice使用,让你的选择不仅仅只有拦截器【享学Spring MVC】(中)
掌握@ControllerAdvice配合RequestBodyAdvice/ResponseBodyAdvice使用,让你的选择不仅仅只有拦截器【享学Spring MVC】(中)
掌握@ControllerAdvice配合RequestBodyAdvice/ResponseBodyAdvice使用,让你的选择不仅仅只有拦截器【享学Spring MVC】(中)
|
分布式计算 Hadoop 容器
Hadoop组件版本不兼容
【5月更文挑战第7天】Hadoop组件版本不兼容
433 3
|
存储 算法 数据处理
提高数据处理效率的有力工具:TopK算法解析
提高数据处理效率的有力工具:TopK算法解析
619 0
提高数据处理效率的有力工具:TopK算法解析