数据库LIKE查询屡试不爽?揭秘大多数人都忽视的秘密操作符!

简介: 本文分析了因数据库中的不可见空白字符导致的数据查询问题,探讨了问题的成因与特性,并提出了使用 SQL 语句修复问题的有效方案。同时,总结了避免类似问题的经验和注意事项。

1. 问题背景

在某次数据库查询中,select * from sys_user where user_name LIKE concat( '%', '赵', '%' ) 能正确查询到包含“赵”的数据,而类似的条件 concat( '%', '赵小', '%' ) 却无法查询到“赵小强”。这一问题暴露了数据的隐藏异常。

通过 Hex() 函数进一步分析,发现“赵小强”的十六进制值为 E8B5B5E5B08FE5BCBA。然而,用 select hex(user_name) 查询时,结果包含了不可见的空白字符 E2808B。这些字符未被用户直观察觉,但干扰了 SQL 查询的匹配逻辑。


2. 不可见字符的影响与判定

不可见字符如 E2808B 是 Unicode 的零宽空白字符(Zero-Width Space),其存在通常由数据导入不规范或应用程序处理不当引起。这些字符对字符串显示无影响,但在计算机匹配时会导致异常行为,例如 SQL 查询失败。

通过进一步验证,问题可归因于零宽字符的存在。更新语句 UPDATE sys_user SET user_name = REPLACE(user_name, UNHEX('E2808B'), ''); 被提出用于移除这些字符。


3. 数据修复方法

针对上述问题,以下步骤被应用解决:

3.1 确认问题字符

使用 select hex(user_name) 查看目标字段的十六进制值,判定是否包含异常字符。

3.2 编写修复 SQL

利用 REPLACE() 函数结合 UNHEX() 替换掉指定不可见字符:

UPDATE sys_user SET user_name = REPLACE(user_name, UNHEX('E2808B'), '');

此语句逐行处理目标字段,将不可见字符替换为空字符串,从而修复数据。


4. 避免类似问题的建议

4.1 数据输入规范化

在数据导入或处理前,使用正则表达式过滤掉不可见字符,确保输入数据无异常。

4.2 数据校验机制

对关键字段定期运行十六进制检查,确保字段值符合预期格式,避免隐性问题。

4.3 字符串处理优化

在字符串操作函数中,明确考虑可能的隐藏字符,例如零宽空白符或其他控制字符。


5. 零宽空白字符

除了常见的零宽空白字符 E2808B(Zero-Width Space, U+200B),以下是其他常见的零宽字符及其特性:

零宽空格类字符

  • Zero Width Non-Joiner (U+200C) 用于防止两个字符连写,其十六进制表示为 E2808C
  • Zero Width Joiner (U+200D) 用于指示字符应连写,十六进制表示为 E2808D
  • Word Joiner (U+2060) 类似于零宽空格,但主要用于禁用断行,十六进制表示为 E281A0

格式控制字符

  • Left-to-Right Mark (U+200E) 用于标记文本方向为从左到右,十六进制表示为 E2808E
  • Right-to-Left Mark (U+200F) 用于标记文本方向为从右到左,十六进制表示为 E2808F
  • Left-to-Right Embedding (U+202A) 指定嵌套的从左到右文本方向,十六进制表示为 E280AA
  • Right-to-Left Embedding (U+202B) 指定嵌套的从右到左文本方向,十六进制表示为 E280AB
  • Pop Directional Formatting (U+202C) 结束嵌套方向设置,十六进制表示为 E280AC

其他不可见字符

  • Zero Width No-Break Space (U+FEFF) 原为字节顺序标记 (BOM),现作为零宽字符使用,十六进制表示为 EFBBBF
  • Soft Hyphen (U+00AD) 用于指示潜在的断字位置,但通常不显示,十六进制表示为 C2AD

COLLATE排序规则可能的影响

排序规则 (COLLATE) 定义了字符串比较和排序的规则,包括:

  • 大小写敏感性:区分大小写的规则(如 _bin 排序规则)和不区分大小写的规则(如 _ci)。
  • 字符比较规则:某些排序规则会将字符视为等价,比如带重音的字符(ée)在一些规则中可能被视为相同。

常见排序规则对 LIKE 的影响

以下是几种典型排序规则及其对 LIKE 的影响:

  • 大小写不敏感(默认,如 utf8mb4_general_ciutf8mb4_unicode_ci): LIKE 'abc%' 将匹配 abc, Abc, ABC 等。
  • 大小写敏感(如 utf8mb4_bin): LIKE 'abc%' 仅匹配大小写完全一致的 abc
  • 如果排序规则忽略重音(如 utf8mb4_general_ci),则 LIKE 'cafe%' 可能匹配 cafécafe。在 utf8mb4_bin 中,重音符号会被严格区分,因此 cafécafe 是不同的。

6. 总结

不可见字符如零宽空白符可能引发查询和匹配异常,问题解决需从排查、修复和预防三方面入手。

通过合理的技术手段,数据库的完整性和查询准确性得以保障,同时为避免类似问题提供了经验参考。

关于作者

来自全栈程序员nine的探索与实践,持续迭代中。

目录
相关文章
|
2月前
|
SQL 数据库
LangChain-09 Query SQL DB With RUN GPT 查询数据库 并 执行SQL 返回结果
LangChain-09 Query SQL DB With RUN GPT 查询数据库 并 执行SQL 返回结果
37 2
|
1月前
|
SQL 安全 Java
MyBatis-Plus条件构造器:构建安全、高效的数据库查询
MyBatis-Plus 提供了一套强大的条件构造器(Wrapper),用于构建复杂的数据库查询条件。Wrapper 类允许开发者以链式调用的方式构造查询条件,无需编写繁琐的 SQL 语句,从而提高开发效率并减少 SQL 注入的风险。
23 1
MyBatis-Plus条件构造器:构建安全、高效的数据库查询
|
1月前
|
存储 缓存 固态存储
怎么让数据库查询更快
【10月更文挑战第28天】
31 2
|
1月前
|
存储 缓存 关系型数据库
怎么让数据库查询更快
【10月更文挑战第25天】通过以上综合的方法,可以有效地提高数据库查询的速度,提升应用程序的性能和响应速度。但在优化过程中,需要根据具体的数据库系统、应用场景和数据特点进行合理的调整和测试,以找到最适合的优化方案。
|
13天前
|
JSON JavaScript 关系型数据库
node.js连接GBase 8a 数据库 并进行查询代码示例
node.js连接GBase 8a 数据库 并进行查询代码示例
|
1月前
|
监控 关系型数据库 MySQL
数据库优化:MySQL索引策略与查询性能调优实战
【10月更文挑战第27天】本文深入探讨了MySQL的索引策略和查询性能调优技巧。通过介绍B-Tree索引、哈希索引和全文索引等不同类型,以及如何创建和维护索引,结合实战案例分析查询执行计划,帮助读者掌握提升查询性能的方法。定期优化索引和调整查询语句是提高数据库性能的关键。
196 1
|
1月前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
314 2
|
1月前
|
SQL 关系型数据库 数据库
PostgreSQL性能飙升的秘密:这几个调优技巧让你的数据库查询速度翻倍!
【10月更文挑战第25天】本文介绍了几种有效提升 PostgreSQL 数据库查询效率的方法,包括索引优化、查询优化、配置优化和硬件优化。通过合理设计索引、编写高效 SQL 查询、调整配置参数和选择合适硬件,可以显著提高数据库性能。
225 1
|
2月前
|
SQL Java 数据库连接
如何使用`DriverManager.getConnection()`连接数据库,并利用`PreparedStatement`执行参数化查询,有效防止SQL注入。
【10月更文挑战第6天】在代码与逻辑交织的世界中,我从一名数据库新手出发,通过不断探索与实践,最终成为熟练掌握JDBC的开发者。这段旅程充满挑战与惊喜,从建立数据库连接到执行SQL语句,再到理解事务管理和批处理等高级功能,每一步都让我对JDBC有了更深的认识。示例代码展示了如何使用`DriverManager.getConnection()`连接数据库,并利用`PreparedStatement`执行参数化查询,有效防止SQL注入。
111 5
|
2月前
|
SQL 存储 安全
SQL查询数据库:基础概念与操作指南
在数字化时代,数据库已成为信息管理的重要工具之一。作为管理和操作数据库的核心语言,SQL(结构化查询语言)已成为数据管理和查询的关键技能。本文将全面介绍SQL查询数据库的基本概念、语句和操作指南,以帮助初学者快速上手,同时为进阶用户提供有价值的参考。一、数据库与SQL简介数据库是一种存储、管理和检索
58 3