【Python自然语言处理】正则表达式(RE)的讲解及实战应用(图文解释 附源码)

简介: 【Python自然语言处理】正则表达式(RE)的讲解及实战应用(图文解释 附源码)

觉得有帮助请动动小手点赞关注收藏~~~

一、分词

在自然语言处理中,分词是文本挖掘和文本分析的基础,分词是将给定语言的字符序列按照规则组合排序成词语序列的处理过程,根据语言不同,分词可以分为中文分词和外文分词,在英语中,单词与单词之间直接以空格作为分隔符,因此空格可以作为分词的关键信息,与此形成对比,中文相对复杂,词语之间缺乏统一的既定分隔符,这决定了即使是相同的中文文本,根据语境不同或者算法不同可能存在多种分词方法,从而导致多义性问题,而歧义可以改变句子或者文本的整体含义,因此提高分词的准确性是影响语义分析的关键问题。

二、停顿

在语言学中,停顿与分词存在一定联系,一般应用在文本语义转换中,语言停顿有两种,其一是句间停顿,根据标点符号来确定句子与句子之间的停顿,其二是句中停顿,以词语或实体为单位,根据句子内各成分之间的内在关系来划分停顿,在汉语中,词语可以大致分为实词和虚词两大类,实词主要包括名词,动词形容词等等,能单独组成句子,而虚词没有单独意义,不能独立组成句子,主要包含副词,介词,助词等等,虚词对实词有协助作用,可以表达一定的意思,虚词位置一般固定,例如副词大多放在动词,形容词的前面起到修饰和限制作用,虚词是语义停顿的重要标志。主语和谓语之间,谓语和宾语,补语之间,一般需要进行停顿处理,正确掌握语句的停顿规律,明确切分标识信息,有助于提高分词处理的准确性和效率

三、正则表达式

正则表达式(Regular Expression)是利用事先定义的特定字符及其组合构造规则字符串,一般用来表达对字符串的匹配逻辑,常见的例子如特定字符串的检索操作。

正则表达式通常被用来查找、替换符合特定符号规律的文本,使用正则表达式首先需要使用正则符号表示特定规则,然后针对特定文本与符号规律进行匹配并检索,最终提取标的信息

正则表达式符号含义规则表如下

常用正则表达式函数使用说明如下

下面列举基于Python的正则表达式实例应用,其中使用到Regex库

测试代码如下

import regex
#查找电子邮箱地址
text="132346school@gmail.com"
expression=regex.compile(r"\w+@\w+\.com")
outcome=regex.findall(expression,text)
print(outcome)
#在文本中查找匹配字符串
text1="REGULARexpression"
text2="!@REGULARexpression@*"
expression=regex.compile(r"\w+")
outcome1=regex.match(expression,text1)
outcome2=regex.match(expression,text2)
print(outcome1)
print(outcome2)
#在文本中查找匹配字符串
outcome3=regex.search(expression,text1)
outcome4=regex.search(expression,text2)
print(outcome3)
print(outcome4)
#在文本中查找匹配分组
text="REGULARexpression-0000"
expression1=regex.compile("(\w+)\-(\w+)")
outcome5=regex.match(expression1,text).group()
outcome6=regex.match(expression,text).groups()
print(outcome5)
print(outcome6)

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
11月前
|
机器学习/深度学习 监控 算法
基于mediapipe深度学习的手势数字识别系统python源码
本内容涵盖手势识别算法的相关资料,包括:1. 算法运行效果预览(无水印完整程序);2. 软件版本与配置环境说明,提供Python运行环境安装步骤;3. 部分核心代码,完整版含中文注释及操作视频;4. 算法理论概述,详解Mediapipe框架在手势识别中的应用。Mediapipe采用模块化设计,包含Calculator Graph、Packet和Subgraph等核心组件,支持实时处理任务,广泛应用于虚拟现实、智能监控等领域。
|
8月前
|
人工智能 数据安全/隐私保护 异构计算
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
1309 8
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
|
数据采集 监控 数据安全/隐私保护
Python正则表达式:用"模式密码"解锁复杂字符串
正则表达式是处理字符串的强大工具,本文以Python的`re`模块为核心,详细解析其原理与应用。从基础语法如字符类、量词到进阶技巧如贪婪匹配与预定义字符集,结合日志分析、数据清洗及网络爬虫等实战场景,展示正则表达式的强大功能。同时探讨性能优化策略(如预编译)和常见错误解决方案,帮助开发者高效掌握这一“瑞士军刀”。最后提醒,合理使用正则表达式,避免过度复杂化,追求简洁优雅的代码风格。
332 0
|
8月前
|
机器学习/深度学习 数据采集 算法
基于mediapipe深度学习的运动人体姿态提取系统python源码
本内容介绍了基于Mediapipe的人体姿态提取算法。包含算法运行效果图、软件版本说明、核心代码及详细理论解析。Mediapipe通过预训练模型检测人体关键点,并利用部分亲和场(PAFs)构建姿态骨架,具有模块化架构,支持高效灵活的数据处理流程。
|
8月前
|
小程序 PHP 图形学
热门小游戏源码(Python+PHP)下载-微信小程序游戏源码Unity发实战指南​
本文详解如何结合Python、PHP与Unity开发并部署小游戏至微信小程序。涵盖技术选型、Pygame实战、PHP后端对接、Unity转换适配及性能优化,提供从原型到发布的完整指南,助力开发者快速上手并发布游戏。
|
10月前
|
算法 数据可视化 数据挖掘
基于EM期望最大化算法的GMM参数估计与三维数据分类系统python源码
本内容展示了基于EM算法的高斯混合模型(GMM)聚类实现,包含完整Python代码、运行效果图及理论解析。程序使用三维数据进行演示,涵盖误差计算、模型参数更新、结果可视化等关键步骤,并附有详细注释与操作视频,适合学习EM算法与GMM模型的原理及应用。
|
10月前
|
API 数据安全/隐私保护 开发者
企业微信自动加好友软件,导入手机号批量添加微信好友,python版本源码分享
代码展示了企业微信官方API的合规使用方式,包括获取access_token、查询部门列表和创建用户等功能
|
9月前
|
并行计算 算法 Java
Python3解释器深度解析与实战教程:从源码到性能优化的全路径探索
Python解释器不止CPython,还包括PyPy、MicroPython、GraalVM等,各具特色,适用于不同场景。本文深入解析Python解释器的工作原理、内存管理机制、GIL限制及其优化策略,并介绍性能调优工具链及未来发展方向,助力开发者提升Python应用性能。
543 0
|
10月前
|
机器人 API 数据安全/隐私保护
QQ机器人插件源码,自动回复聊天机器人,python源码分享
消息接收处理:通过Flask搭建HTTP服务接收go-cqhttp推送的QQ消息47 智能回复逻辑
|
前端开发 JavaScript 关系型数据库
基于python的租房网站-房屋出租租赁系统(python+django+vue)源码+运行
该项目是基于python/django/vue开发的房屋租赁系统/租房平台,作为本学期的课程作业作品。欢迎大家提出宝贵建议。
581 6

推荐镜像

更多