数据清洗中的正则

简介: 数据清洗中经常使用的正则表达式

sql类型 CHECK_NULL ${field} is null 检查空值
sql类型 身份证号码检查 !regexp_like(${field},'^[1-9][0-9]{5}(18|19|20)[0-9]{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)[0-9]{3}[0-9Xx]$') and !regexp_like(${field},'^[1-9][0-9]{5}[0-9]{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)[1-9]{3}$')
sql类型 电话号码检测 !regexp_like(${field},'^1[3|4|5|7|8][0-9]\d{8}$')
sql类型 港澳通行证 !regexp_like(${field},'^[HMhm]{1}([0-9]{10}|[0-9]{8})$')
sql类型 台湾通行证 !regexp_like(${field},'^([0-9]{8}|[0-9]{10})$')
sql类型 银行卡号 !regexp_like(${field},'^([1-9]{1})([0-9]{14}|[0-9]{18})$')
sql类型 电子邮件 !regexp_like(${field},'^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$')
sql类型 QQ号码 !regexp_like(${field},'1-9{4,}')
sql类型 车牌号 !regexp_like(${field},'^[京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领A-Z]{1}[A-Z]{1}[A-Z0-9]{4}[A-Z0-9挂学警港澳]{1}$')
sql类型 护照 !regexp_like(${field},'^[a-zA-Z0-9]{5,17}$')

目录
相关文章
|
1月前
|
Python
Python实现正则表达式匹配。
【2月更文挑战第11天】【2月更文挑战第30篇】Python实现正则表达式匹配。
|
1月前
|
数据采集 数据挖掘
kettle开发-数据清洗之字符串替换
kettle开发-数据清洗之字符串替换
172 2
|
1月前
|
人工智能 数据可视化 前端开发
正则表达式可视化
正则表达式可视化
|
1月前
|
数据采集 自然语言处理 JavaScript
正则表达式的神奇世界:表达、匹配和提取
正则表达式的神奇世界:表达、匹配和提取
56 0
|
9月前
|
XML JavaScript 前端开发
常用正则表达式收集
常用正则表达式收集
27 0
|
数据采集 机器学习/深度学习 自然语言处理
文本处理技能与文本数据清洗、提取、分词与统计
文本处理技能与文本数据清洗、提取、分词与统计
|
JSON 数据格式
jmeter正则表达式提取器的用法和正则
jmeter正则表达式提取器的用法和正则
211 0
|
数据采集 大数据 开发者
数据预处理—数据清洗—数据过滤功能代码|学习笔记
快速学习数据预处理—数据清洗—数据过滤功能代码
297 0
数据预处理—数据清洗—数据过滤功能代码|学习笔记
|
数据采集 测试技术
【正则表达式测试工具】使用正则表达式快速找出两列数据中不同的行
【正则表达式测试工具】使用正则表达式快速找出两列数据中不同的行
98 0