数据清洗中的正则

简介: 数据清洗中经常使用的正则表达式

sql类型 CHECK_NULL ${field} is null 检查空值
sql类型 身份证号码检查 !regexp_like(${field},'^[1-9][0-9]{5}(18|19|20)[0-9]{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)[0-9]{3}[0-9Xx]$') and !regexp_like(${field},'^[1-9][0-9]{5}[0-9]{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)[1-9]{3}$')
sql类型 电话号码检测 !regexp_like(${field},'^1[3|4|5|7|8][0-9]\d{8}$')
sql类型 港澳通行证 !regexp_like(${field},'^[HMhm]{1}([0-9]{10}|[0-9]{8})$')
sql类型 台湾通行证 !regexp_like(${field},'^([0-9]{8}|[0-9]{10})$')
sql类型 银行卡号 !regexp_like(${field},'^([1-9]{1})([0-9]{14}|[0-9]{18})$')
sql类型 电子邮件 !regexp_like(${field},'^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$')
sql类型 QQ号码 !regexp_like(${field},'1-9{4,}')
sql类型 车牌号 !regexp_like(${field},'^[京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼使领A-Z]{1}[A-Z]{1}[A-Z0-9]{4}[A-Z0-9挂学警港澳]{1}$')
sql类型 护照 !regexp_like(${field},'^[a-zA-Z0-9]{5,17}$')

目录
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 算法
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)
3363 0
|
6月前
|
数据采集 机器学习/深度学习 Python
在Python中进行数据清洗和预处理缺失值处理缺失值补全
在Python中进行数据清洗和预处理缺失值处理缺失值补全
164 3
|
6月前
|
数据采集 数据挖掘
kettle开发-数据清洗之字符串替换
kettle开发-数据清洗之字符串替换
297 2
|
15天前
|
数据采集 机器学习/深度学习 测试技术
数据清洗与过滤中,如何确定哪些数据是高质量的?
数据清洗与过滤中,如何确定哪些数据是高质量的?
|
28天前
|
数据采集 机器学习/深度学习 自然语言处理
数据清洗与过滤
数据清洗与过滤
|
6月前
|
数据采集 Python
在Python中进行数据清洗和预处理缺失值处理缺失数据剔除
在Python中进行数据清洗和预处理缺失值处理缺失数据剔除
113 4
|
6月前
|
人工智能 数据可视化 前端开发
正则表达式可视化
正则表达式可视化
|
6月前
|
数据采集 自然语言处理 JavaScript
正则表达式的神奇世界:表达、匹配和提取
正则表达式的神奇世界:表达、匹配和提取
96 0
|
XML JavaScript 前端开发
常用正则表达式收集
常用正则表达式收集
37 0
|
数据采集 机器学习/深度学习 自然语言处理
文本处理技能与文本数据清洗、提取、分词与统计
文本处理技能与文本数据清洗、提取、分词与统计