使用“正则”实现不规则数据的中英文提取

简介: 使用“正则”实现不规则数据的中英文提取

1、对于本文的说明

image.png

 这篇文章,是帮一个群友回答的问题。他的需求是:对于中英文混合的行,只需要中文。对于全英文的行,返回整个英文行。对于全中文的行,返回整个中文行。

 


2、解答如下

import pandas as pd
import re
df = pd.read_excel(r"G:\6Tipdm\test.xlsx")
display(df)
def func(x):
    if re.findall("[\u4E00-\u9FD5]+",x) == []:
        z = re.findall("[^\u4E00-\u9FD5,]+",x)
        z = "".join(z).strip()
        return z
    else:
        z = re.findall("[\u4E00-\u9FD5, ]+",x)
        z = "".join(z).strip()
        return z
df["aa"] = df["产品"].apply(func)
df


结果如下:

image.png


3、上述问题的扩展(中英文分开提取)

import pandas as pd
import re
df = pd.read_excel(r"G:\6Tipdm\test.xlsx")
display(df)
def func(x):
    if re.findall("[\u4E00-\u9FD5]+",x) != []:
        z = re.findall("[^\u4E00-\u9FD5,]+",x)
        z = "".join(z).strip()
        return z
    elif re.findall("[\u4E00-\u9FD5]+",x) == []:
        z = re.findall("[^\u4E00-\u9FD5,]+",x)
        z = "".join(z).strip()
        return z
    else:
        return ""
def func2(x):
    if re.findall("[\u4E00-\u9FD5]+",x) != []:
        z = re.findall("[\u4E00-\u9FD5, ]+",x)
        z = "".join(z).strip()
        return z
    else:
        return ""
df["aa"] = df["产品"].apply(func)
df["bb"] = df["产品"].apply(func2)
df


结果如下:

image.png

相关文章
|
2月前
【图片公式识别】图片公式转Word与LaTeX文档:智能识别与转换
【图片公式识别】图片公式转Word与LaTeX文档:智能识别与转换
106 4
|
2月前
|
数据采集 自然语言处理 JavaScript
正则表达式的神奇世界:表达、匹配和提取
正则表达式的神奇世界:表达、匹配和提取
56 0
|
2月前
|
自然语言处理
将向量提取器用于平行语料对齐的一个小示例
将向量提取器用于平行语料对齐的一个小示例
25 0
|
算法
基于MSER的车牌提取和字符分割仿真
基于MSER的车牌提取和字符分割仿真
92 0
|
算法 固态存储
分别使用SAD匹配,NCC匹配,SSD匹配三种算法提取双目图像的深度信息
分别使用SAD匹配,NCC匹配,SSD匹配三种算法提取双目图像的深度信息
124 0
分别使用SAD匹配,NCC匹配,SSD匹配三种算法提取双目图像的深度信息
|
文字识别
【数图大作业】基于模板匹配的文字识别(二)(文字行列分割)
【数图大作业】基于模板匹配的文字识别(二)(文字行列分割)
【数图大作业】基于模板匹配的文字识别(二)(文字行列分割)
|
文字识别
【数图大作业】基于模板匹配的文字识别(三)(空格识别+模板匹配)
【数图大作业】基于模板匹配的文字识别(三)(空格识别+模板匹配)
|
机器学习/深度学习 资源调度 算法
图像提取特征(下)| 学习笔记
快速学习图像提取特征(下),介绍了图像提取特征(下)系统机制, 以及在实际应用过程中如何使用。
115 0
图像提取特征(下)| 学习笔记
|
图形学 C++
C/C++打造图像转字符工具(非常有趣)
C/C++打造图像转字符工具(非常有趣)
292 0
C/C++打造图像转字符工具(非常有趣)
|
自然语言处理 Python
Python实现文本分词并写入新的文本文件,然后提取出文本中的关键词
Python实现文本分词并写入新的文本文件,然后提取出文本中的关键词
124 0