【Python自然语言处理】正则表达式(RE)的讲解及实战应用(图文解释 附源码)

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 【Python自然语言处理】正则表达式(RE)的讲解及实战应用(图文解释 附源码)

觉得有帮助请动动小手点赞关注收藏~~~

一、分词

在自然语言处理中,分词是文本挖掘和文本分析的基础,分词是将给定语言的字符序列按照规则组合排序成词语序列的处理过程,根据语言不同,分词可以分为中文分词和外文分词,在英语中,单词与单词之间直接以空格作为分隔符,因此空格可以作为分词的关键信息,与此形成对比,中文相对复杂,词语之间缺乏统一的既定分隔符,这决定了即使是相同的中文文本,根据语境不同或者算法不同可能存在多种分词方法,从而导致多义性问题,而歧义可以改变句子或者文本的整体含义,因此提高分词的准确性是影响语义分析的关键问题。

二、停顿

在语言学中,停顿与分词存在一定联系,一般应用在文本语义转换中,语言停顿有两种,其一是句间停顿,根据标点符号来确定句子与句子之间的停顿,其二是句中停顿,以词语或实体为单位,根据句子内各成分之间的内在关系来划分停顿,在汉语中,词语可以大致分为实词和虚词两大类,实词主要包括名词,动词形容词等等,能单独组成句子,而虚词没有单独意义,不能独立组成句子,主要包含副词,介词,助词等等,虚词对实词有协助作用,可以表达一定的意思,虚词位置一般固定,例如副词大多放在动词,形容词的前面起到修饰和限制作用,虚词是语义停顿的重要标志。主语和谓语之间,谓语和宾语,补语之间,一般需要进行停顿处理,正确掌握语句的停顿规律,明确切分标识信息,有助于提高分词处理的准确性和效率

三、正则表达式

正则表达式(Regular Expression)是利用事先定义的特定字符及其组合构造规则字符串,一般用来表达对字符串的匹配逻辑,常见的例子如特定字符串的检索操作。

正则表达式通常被用来查找、替换符合特定符号规律的文本,使用正则表达式首先需要使用正则符号表示特定规则,然后针对特定文本与符号规律进行匹配并检索,最终提取标的信息

正则表达式符号含义规则表如下

常用正则表达式函数使用说明如下

下面列举基于Python的正则表达式实例应用,其中使用到Regex库

测试代码如下

import regex
#查找电子邮箱地址
text="132346school@gmail.com"
expression=regex.compile(r"\w+@\w+\.com")
outcome=regex.findall(expression,text)
print(outcome)
#在文本中查找匹配字符串
text1="REGULARexpression"
text2="!@REGULARexpression@*"
expression=regex.compile(r"\w+")
outcome1=regex.match(expression,text1)
outcome2=regex.match(expression,text2)
print(outcome1)
print(outcome2)
#在文本中查找匹配字符串
outcome3=regex.search(expression,text1)
outcome4=regex.search(expression,text2)
print(outcome3)
print(outcome4)
#在文本中查找匹配分组
text="REGULARexpression-0000"
expression1=regex.compile("(\w+)\-(\w+)")
outcome5=regex.match(expression1,text).group()
outcome6=regex.match(expression,text).groups()
print(outcome5)
print(outcome6)

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【10月更文挑战第3天】本文将探讨AI技术在自然语言处理(NLP)领域的应用及其面临的挑战。我们将分析NLP的基本原理,介绍AI技术如何推动NLP的发展,并讨论当前的挑战和未来的趋势。通过本文,读者将了解AI技术在NLP中的重要性,以及如何利用这些技术解决实际问题。
|
2月前
|
机器学习/深度学习 数据采集 自然语言处理
深度学习在自然语言处理中的应用与挑战
本文探讨了深度学习技术在自然语言处理(NLP)领域的应用,包括机器翻译、情感分析和文本生成等方面。同时,讨论了数据质量、模型复杂性和伦理问题等挑战,并提出了未来的研究方向和解决方案。通过综合分析,本文旨在为NLP领域的研究人员和从业者提供有价值的参考。
|
17天前
|
自然语言处理 算法 Python
自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
【10月更文挑战第9天】自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
37 4
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在自然语言处理中的创新应用
【10月更文挑战第7天】本文将深入探讨人工智能在自然语言处理领域的最新进展,揭示AI技术如何改变我们与机器的互动方式,并展示通过实际代码示例实现的具体应用。
32 1
|
3天前
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
利用Python进行自然语言处理(NLP)
16 1
|
25天前
|
自然语言处理 PyTorch 算法框架/工具
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
【10月更文挑战第1天】随着深度学习技术的进步,预训练模型已成为自然语言处理(NLP)领域的常见实践。这些模型通过大规模数据集训练获得通用语言表示,但需进一步微调以适应特定任务。本文通过简化流程和示例代码,介绍了如何选择预训练模型(如BERT),并利用Python库(如Transformers和PyTorch)进行微调。文章详细说明了数据准备、模型初始化、损失函数定义及训练循环等关键步骤,并提供了评估模型性能的方法。希望本文能帮助读者更好地理解和实现模型微调。
53 2
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
|
14天前
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
利用Python进行自然语言处理(NLP)
25 3
|
15天前
|
Python
Python 中常用的内置模块之`re`模块
【10月更文挑战第11天】 `re` 模块是 Python 内置的正则表达式处理工具,支持模式匹配、搜索、替换等功能。通过 `search`、`match`、`findall` 和 `sub` 等函数,结合正则表达式的元字符、分组、贪婪模式等特性,可高效完成文本处理任务。示例代码展示了基本用法,帮助快速上手。
12 1
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用
【10月更文挑战第4天】本文将介绍人工智能(AI)在自然语言处理(NLP)领域的应用,包括语音识别、机器翻译、情感分析等方面。我们将通过一些实际案例展示AI如何帮助人们更好地理解和使用自然语言。同时,我们也会探讨AI在NLP领域面临的挑战和未来发展方向。
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能在自然语言处理中的应用
本文将深入探讨人工智能在自然语言处理领域的应用,包括语音识别、文本挖掘和情感分析等方面。通过实例演示,我们将展示如何利用深度学习技术来提高自然语言处理的准确性和效率。