NLP中的预处理:使用Python进行文本归一化(一)

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: NLP中的预处理:使用Python进行文本归一化(一)

我们在有关词干的文章中讨论了文本归一化。但是,词干并不是文本归一化中最重要(甚至使用)的任务。我们还进行了其他一些归一化技术的研究,例如Tokenization,Sentencizing和Lemmatization。但是,还有其他一些用于执行此重要预处理步骤的小方法,将在本文中进行讨论。

640.png

  请记住,没有适用于所有情况的“正确”归一化方法列表。实际上,随着我们对NLP的深入研究,越来越多的人意识到NLP并不像人们想象的那样具有普遍性。尽管有许多有趣的通用工具箱和预制管道,但更精确的系统是针对上下文量身定制的系统。

因此,不应将本文归一化的步骤列表作为硬性规则,而应将其作为对某些文章进行文本归一化的准则。还必须指出的是,在极少数情况下,您可能不想归一化输入-文本中其中更多变化和错误很重要时(例如,考虑测试校正算法)。

了解我们的目标——为什么我们需要文本归一化

   让我们从归一化技术的明确定义开始。自然语言作为一种人力资源,倾向于遵循其创造者随机性的内在本质。这意味着,当我们“产生”自然语言时,我们会在其上加上随机状态。计算机不太擅长处理随机性(尽管使用机器学习算法已将随机性的影响降到最低)。

   当我们归一化自然语言时,我们会尝试减少其随机性,使其更接近预定义的“标准”。这有助于减少计算机必须处理的不同信息的数量,从而提高效率。

image.png

通过归一化,我们希望使“文本分布”更接近“正态”分布。

   当我们归一化自然语言资源时,我们尝试减少其中的随机性

   在那篇关于词干的文章中,我提到了归一化试图使事物更接近“正态分布”。在某种意义上说是正确的,当我们归一化自然语言输入时,我们希望以“良好”和“可预测”的形状使事物“符合预期”,例如遵循正态分布。

   除了数学领域之外,我们还可以讨论将归一化数据输入到我们的NLP系统中的好处

   首先,通过减少随机性,我们减少了待处理的输入变量,提高了总体性能并避免了误报(想象一下,如果软件日志行中没有错字,就会触发警告。)。对于系统和信息检索任务来说,这是非常正确的(想象一下,如果Google的搜索引擎仅与您键入的单词完全匹配!)。

image.png

从某种意义上讲,可以将归一化与“去除尖锐边缘”方法进行比较。

   其次,尤其是在讨论机器学习算法时,如果我们使用的是字词袋或TF-IDF字典等简单的旧结构,则归一化会降低输入的维数;或降低载入数据所需的处理量。

   第三,归一化有助于在将输入传递给我们的决策NLP算法之前对其进行处理。在这种情况下,我们确保我们的输入将在处理之前遵循“合同”。

   最后,如果正确完成,归一化对于从自然语言输入中可靠地提取统计数据非常重要-就像在其他领域(例如时间序列分析)一样,归一化是NLP数据科学家/分析师/工程师手中重要的一步。

我们归一化的对象是什么?

   这是一个重要的问题。在进行文本归一化时,我们应该确切地知道我们要标归一什么以及为什么要归一化。另外,输入数据的特点有助于确定我们将要用来归一化输入的步骤。我们最感兴趣的是两件事:

  • 句子结构:它总是以标点符号结尾吗?会出现重复的标点符号吗?我们是否应该删除所有标点符号?此外,可以使用更具体的结构(就像主谓宾结构),但很难实现。
  • 词汇: 这是需要注意的核心内容之一。大多数时候,我们希望我们的词汇量尽可能小。原因是,在NLP中,词汇是我们的主要特征,而当我们在这些词汇中的变化较少时,我们可以更好地实现目标。

   实际上,我们可以通过分解成更简单的问题来对这两个方面进行归一化。以下是最常见的方法:

→删除重复的空格和标点符号。

→去除口音(如果您的数据包含来自“外国”语言的变音符号-这有助于减少与编码类型有关的错误)。

→去除大写字母(通常,使用小写单词可获得更好的结果。但是,在某些情况下,大写字母对于提取信息(例如名称和位置)非常重要)。

→删除或替换特殊字符/表情符号(例如:删除主题标签)。

→替换单词缩写(英语中很常见;例如:“我”→“我是”)。

→将单词数字转换为阿拉伯数字(例如:“二十三”→“ 23”)。

→为特殊符号替换(例如:“ $ 50”→“钱”)。

→缩写标准化(例如:“ US”→“美国” /“美国”,“ btw”→“顺便说一下”)。

→标准化日期格式,社会保险号或其他具有标准格式的数据。

→拼写纠正(可以说一个单词可以用无限方式拼写错误,因此拼写纠正可以通过“更正”来减少词汇变化)–如果您要处理推特,即时消息和电子邮件等开放用户输入的数据,这一点非常重要。

→通过词干去除性别/时间/等级差异。

→将稀有单词替换为更常见的同义词。

→停止定型化(比归一化技术更常见的降维技术)。


   在本文中,我将只讨论其中一部分的实现。

如何做归一化工作

   要选择我们将要使用的归一化步骤,我们需要一项特定的任务。对于本文,我们将假设我们要提取3000个#COVIDIOTS主题标签的情绪集,以了解人们对COVID-19流行的看法。

   我获得了这些推文,可以在这里下载。我还使用这个名为best-profanity的漂亮工具来审查不好的文字,如果需要,可以将其添加到规范化管道中。他们也不包含撰写内容的人。

   但是,我并没有继续删除每条推文中的姓名或检查任何政治立场等,因为这不是本文的目的,并且可以单独撰写另一篇文章(关于自动审查)。

   在这种情况下,我们要执行以下步骤:删除重复的空白和标点符号;缩写替代;拼写更正。另外,我们已经讨论了定形化,下面我们使用它。

   在完成代码部分之后,我们将统计分析应用上述归一化步骤的结果。

   关于规范化的一件重要事情是函数的顺序很重要。我们可以说归一化是NLP预处理管道中的管道。如果我们不谨慎,则可能删除对以后的步骤很重要的信息(例如在定形之前删除停用词)。

   我们甚至可以将这些步骤分为两个连续的组:“标记前步骤”(用于修改句子结构的步骤)和“标记后步骤”(仅用于修改单个标记的步骤),以避免重复标记步骤。但是,为简单起见,我们使用.split()函数。

640.png

像生产线一样,归一化步骤的顺序也很重要。

   将推文解析为字符串列表之后,就可以开始创建函数了。顺便说一句,我在列表周围使用了一个名为tqdm的漂亮模块,因此一旦应用归一化过程,我们就会获得漂亮的进度条。以下是所需的导入:

from symspellpy.symspellpy import SymSpell, Verbosity
import pkg_resources
import re, string, json
import spacy
from tqdm import tqdm
#Or, for jupyter notebooks:
#from tqdm.notebook import tqdm

删除重复的空白和重复的标点符号(和网址):

   这一步骤用简单的正则表达式替换完成。有改进的余地,但是可以满足我们的期望(这样,我们就不会有多种尺寸的标度和感叹号标记)。我们删除网址,因为这会减少很多我们拥有的不同令牌的数量(我们首先这样做,因为标点替换可能会阻止它)。

def simplify_punctuation_and_whitespace(sentence_list):
     norm_sents = []
     print("Normalizing whitespaces and punctuation")
     for sentence in tqdm(sentence_list):
         sent = _replace_urls(sentence)
         sent = _simplify_punctuation(sentence)
         sent = _normalize_whitespace(sent)
         norm_sents.append(sent)
     return norm_sents
def _replace_urls(text):
     url_regex = r'(https?:\/\/(?:www\.|(?!www))[a-zA-Z0-9][a-zA-Z0-9-]+[a-zA-Z0-9]\.[^\s]{2,}|www\.[a-zA-Z0-9][a-zA-Z0-9-]+[a-zA-Z0-9]\.[^\s]{2,}|https?:\/\/(?:www\.|(?!www))[a-zA-Z0-9]+\.[^\s]{2,}|www\.[a-zA-Z0-9]+\.[^\s]{2,})'
     text = re.sub(url_regex, "<URL>", text)
     return text
def _simplify_punctuation(text):
     """
   This function simplifies doubled or more complex punctuation. The exception is '...'.
   """
     corrected = str(text)
     corrected = re.sub(r'([!?,;])\1+', r'\1', corrected)
     corrected = re.sub(r'\.{2,}', r'...', corrected)
     return corrected
def _normalize_whitespace(text):
     """
   This function normalizes whitespaces, removing duplicates.
   """
     corrected = str(text)
     corrected = re.sub(r"//t",r"\t", corrected)
     corrected = re.sub(r"( )\1+",r"\1", corrected)
     corrected = re.sub(r"(\n)\1+",r"\1", corrected)
     corrected = re.sub(r"(\r)\1+",r"\1", corrected)
     corrected = re.sub(r"(\t)\1+",r"\1", corrected)
     return corrected.strip(" ")


目录
相关文章
|
13天前
|
Python
python 找到并去除文本中的全部链接
这篇文章提供了一个使用Python正则表达式找到并删除文本中所有链接的代码示例。
|
7天前
|
Python
在Python中,文本查找和替换的常用操作
在Python中,文本查找和替换的常用操作,使用字符串方法进行查找和替换,使用正则表达式进行查找和替换,对所查找到的内容进行计数。
12 1
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】python之人工智能应用篇——文本生成技术
文本生成是指使用自然语言处理技术,基于给定的上下文或主题自动生成人类可读的文本。这种技术可以应用于各种领域,如自动写作、聊天机器人、新闻生成、广告文案创作等。
41 8
|
11天前
|
机器学习/深度学习 自然语言处理 算法
使用Python实现简单的文本情感分析
【8月更文挑战第31天】本文介绍了如何使用Python编程语言和自然语言处理技术来实现一个简单的文本情感分析。我们将从基本概念入手,逐步深入到代码实现,最后通过一个实际例子来展示如何应用这一技术。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的指导。
|
12天前
|
机器学习/深度学习 数据采集 自然语言处理
Python中实现简单的文本情感分析未来触手可及:新技术趋势与应用深度解析
【8月更文挑战第30天】在数字化的今天,理解和分析用户生成的内容对许多行业至关重要。本文将引导读者通过Python编程语言,使用自然语言处理(NLP)技术,构建一个简单的文本情感分析工具。我们将探索如何利用机器学习模型来识别和分类文本数据中的情感倾向,从而为数据分析和决策提供支持。文章将涵盖从数据预处理到模型训练和评估的全过程,旨在为初学者提供一个易于理解且实用的入门指南。
|
13天前
|
数据可视化 Python
通过python建立一个web服务查看服务器上的文本、图片、视频等文件
通过python建立一个web服务查看服务器上的文本、图片、视频等文件
14 0
|
29天前
|
SQL 分布式计算 算法
【python】python指南(三):使用正则表达式re提取文本中的http链接
【python】python指南(三):使用正则表达式re提取文本中的http链接
14 0
|
自然语言处理 Python
Python读取Word/PPT文件文本内容和图片内容
读取某个指定路径下的Word/PPT文件,并将其中所有的文本内容生成一个TXT文件,将所有的图片内容保存在一个文件夹里
346 0
|
存储 Linux 测试技术
Python操作PDF-文本和图片提取(使用PyPDF2和PyMuPDF)
Python操作PDF-文本和图片提取(使用PyPDF2和PyMuPDF)
993 0
python小玩意——使用PIL模块将文本文字放在图片里面
python小玩意——使用PIL模块将文本文字放在图片里面
python小玩意——使用PIL模块将文本文字放在图片里面
下一篇
DDNS