使用“正则”实现不规则数据的中英文提取

简介: 使用“正则”实现不规则数据的中英文提取

1、对于本文的说明

image.png

 这篇文章,是帮一个群友回答的问题。他的需求是:对于中英文混合的行,只需要中文。对于全英文的行,返回整个英文行。对于全中文的行,返回整个中文行。

 


2、解答如下

import pandas as pd
import re
df = pd.read_excel(r"G:\6Tipdm\test.xlsx")
display(df)
def func(x):
    if re.findall("[\u4E00-\u9FD5]+",x) == []:
        z = re.findall("[^\u4E00-\u9FD5,]+",x)
        z = "".join(z).strip()
        return z
    else:
        z = re.findall("[\u4E00-\u9FD5, ]+",x)
        z = "".join(z).strip()
        return z
df["aa"] = df["产品"].apply(func)
df


结果如下:

image.png


3、上述问题的扩展(中英文分开提取)

import pandas as pd
import re
df = pd.read_excel(r"G:\6Tipdm\test.xlsx")
display(df)
def func(x):
    if re.findall("[\u4E00-\u9FD5]+",x) != []:
        z = re.findall("[^\u4E00-\u9FD5,]+",x)
        z = "".join(z).strip()
        return z
    elif re.findall("[\u4E00-\u9FD5]+",x) == []:
        z = re.findall("[^\u4E00-\u9FD5,]+",x)
        z = "".join(z).strip()
        return z
    else:
        return ""
def func2(x):
    if re.findall("[\u4E00-\u9FD5]+",x) != []:
        z = re.findall("[\u4E00-\u9FD5, ]+",x)
        z = "".join(z).strip()
        return z
    else:
        return ""
df["aa"] = df["产品"].apply(func)
df["bb"] = df["产品"].apply(func2)
df


结果如下:

image.png

相关文章
|
JSON API 数据处理
Winform管理系统新飞跃:无缝集成SqlSugar与Web API,实现数据云端同步的革新之路!
【8月更文挑战第3天】在企业应用开发中,常需将Winform桌面应用扩展至支持Web API调用,实现数据云端同步。本文通过实例展示如何在已有SqlSugar为基础的Winform系统中集成HTTP客户端调用Web API。采用.NET的`HttpClient`处理请求,支持异步操作。示例包括创建HTTP辅助类封装请求逻辑及在Winform界面调用API更新UI。此外,还讨论了跨域与安全性的处理策略。这种方法提高了系统的灵活性与扩展性,便于未来的技术演进。
551 2
|
存储 Java 程序员
Activiti工作流引擎进阶【收藏可做笔记系列】
Activiti工作流引擎进阶【收藏可做笔记系列】
Activiti工作流引擎进阶【收藏可做笔记系列】
|
监控 算法 安全
数据脱敏平台-大数据时代的隐私保护利器
什么是数据脱敏 又称数据漂白、数据去隐私化或数据变形。是对核心业务数据中敏感的信息,进行变形、转换、混淆,使得对业务数据中的身份、组织等隐私敏感信息进行去除或掩盖,以保护数据能被合理、安全地利用。
6583 0
|
Web App开发 异构计算
|
2天前
|
弹性计算 人工智能 安全
云上十五年——「弹性计算十五周年」系列客户故事(第二期)
阿里云弹性计算十五年深耕,以第九代ECS g9i实例引领算力革新。携手海尔三翼鸟、小鹏汽车、微帧科技等企业,实现性能跃升与成本优化,赋能AI、物联网、智能驾驶等前沿场景,共绘云端增长新图景。
|
8天前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
7天前
|
人工智能 自然语言处理 自动驾驶
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
|
7天前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。