教你用Python进行自然语言处理(附代码)

简介:

自然语言处理(NLP)是数据科学中最有趣的子领域之一,越来越多的数据科学家希望能够开发出涉及非结构化文本数据的解决方案。尽管如此,许多应用数据科学家(均具有STEM和社会科学背景)依然缺乏NLP(自然语言处理)经验。

在这篇文章中,我将探讨一些基本的NLP概念,并展示如何使用日益流行的Python spaCy包来实现这些概念。这篇文章适合NLP初学者阅读,但前提是假设读者具备Python的知识。

你是在说spaCy吗?

spaCy是一个相对较新的包,“工业级的Python自然语言工具包”,由Matt Honnibal在Explosion AI.开发。它在设计时目标用户以应用数据科学家为主,这也意味着它不需要用户来决定使用哪个算法来处理常见任务,而且它非常地快—快得难以置信(它用Cython来实现)。如果你熟悉Python数据科学栈,spaCy就是NLP的numpy,它虽然理所当然地位于底层,但是却很直观,性能也相当地高。

那么,它能做什么呢?

spaCy为任何NLP项目中常用的任务提供一站式服务.包括:

8481c8f592b7f349aa84a1de5c171db681516edf符号化(Tokenizatioin)
8481c8f592b7f349aa84a1de5c171db681516edf 词干提取(Lemmatization)
8481c8f592b7f349aa84a1de5c171db681516edf 词性标注(Part-of-speech tagging)
8481c8f592b7f349aa84a1de5c171db681516edf 实体识别(Entity recognition)
8481c8f592b7f349aa84a1de5c171db681516edf 依存句法分析(Dependency parsing)
8481c8f592b7f349aa84a1de5c171db681516edf 句子的识别(Sentence recognition)
8481c8f592b7f349aa84a1de5c171db681516edf 字-向量变换(Word-to-vector transformation)
8481c8f592b7f349aa84a1de5c171db681516edf 许多方便的清除文本和标准化文本的方法(cleaning and normalizing text)

我会对这些功能做一个高层次的概述,并说明如何利用spaCy访问它们。

那我们就开始吧。

首先,我们加载spaCy的管线,按照约定,它存储在一个名为nlp的变量中。需要花几秒钟时间声明该变量,因为spaCy预先将模型和数据加载到前端,以节省时间。实际上,这样做可以提前完成一些繁重的工作,使得nlp解析数据时开销不至于过大。 请注意,在这里,我们使用的语言模型是英语,同时也有一个功能齐全的德语模型,在多种语言中均可实现标记化(将在下面讨论)。

我们在示例文本中调用NLP来创建Doc对象。Doc 对象是文本本身NLP任务容器,将文本切分成文字(Span 对象)和元素(Token 对象),这些对象实际上不包含数据。值得注意的是Token 和 Span对象实际上没有数据。相反,它们包含Doc对象中的数据的指针,并且被惰性求值(即根据请求)。绝大多数spaCy的核心功能是通过对Doc (n=33), Span (n=29),和 Token (n=78)对象的方法来实现的。

In[1]:import spacy

...: nlp = spacy.load("en")

...: doc = nlp("The big grey dog ate all of the chocolate, but fortunately he wasn't sick!")

分词(tokenization)

分词是许多自然语言处理任务中的一个基本步骤。分词就是将一段文本拆分为单词、符号、标点符号、空格和其他元素的过程,从而创建token。这样做的一个简单方法是在空格上拆分字符串:

In[2]:doc.text.split()

...: Out[2]: ['The', 'big', 'grey', 'dog', 'ate', 'all', 'of', 'the', 'chocolate,', 'but', 'fortunately', 'he', "wasn't", 'sick!']

从表面上,直接以空格进行分词效果还不错。但是请注意, 它忽略了标点符号,且没有将动词和副词分开("was", "n't")。换句话说,它太天真了,它无法识别出帮助我们(和机器)理解其结构和含义的文本元素。让我们来看看spaCy如何处理这个问题:

In[3]:[token.orth_ for token in doc]

...:

Out[3]: ['The', 'big', 'grey', 'dog', 'ate', 'all', 'of', 'the', 'chocolate', ',', 'but', 'fortunately', 'he', 'was', "n't", ' ', 'sick', '!']

这里,我们访问的每个token的.orth_方法,它返回一个代表token的字符串,而不是一个SpaCytoken对象。这可能并不总是可取的,但值得注意。SpaCy能够识别标点符号,并能够将这些标点符号与单词的token分开。许多SpaCy的token方法为待处理的文字同时提供了字符串和整数的返回值:带有下划线后缀的方法返回字符串而没有下划线后缀的方法返回的是整数。例如:

In[4]:[(token, token.orth_, token.orth) for token in doc]

...:

Out[4]:[(The, 'The', 517), (big, 'big', 742), (grey, 'grey', 4623), (dog, 'dog', 1175), (ate, 'ate', 3469), (all, 'all', 516), (of, 'of', 471), (the, 'the', 466), (chocolate, 'chocolate', 3593), (,, ',', 416), (but, 'but', 494), (fortunately, 'fortunately', 15520), (he, 'he', 514), (was, 'was', 491), (n't, "n't", 479), ( , ' ', 483), (sick, 'sick', 1698), (!, '!', 495)]

In[5]: [token.orth_ for token in doc if not token.is_punct | token.is_space]

...:

Out[5]: ['The', 'big', 'grey', 'dog', 'ate', 'all', 'of', 'the', 'chocolate', 'but', 'fortunately', 'he', 'was', "n't", 'sick']

很酷,对吧?

词干提取

和分词相关的任务是词干提取。词干提取是将一个单词还原成它的基本形式--母词的过程。不同用法的单词往往具有相同意义的词根。例如,practice(练习), practiced(熟练的),和 practising(实习)这三个单词实质上指的是同一件事情。通常需要将相似意义的单词进行标准化,标准化到其基本的形式。使用SpaCy,我们利用标记的.lemma_ 方法访问到每个单词的基本形式。

In[6]:practice = "practice practiced practicing"

...: nlp_practice = nlp(practice)

...: [word.lemma_ for word in nlp_practice]

...:

Out[6]: ['practice', 'practice', 'practice']

为什么这个会有用?一个即时用例便是机器学习,特别是文本分类。例如:在创建“单词袋”之前需对文本进行词干提取,避免了单词的重复,因此,该模型可以更清晰地描述跨多个文档的单词使用模式。

词性标注(POS Tagging)

词性标注是将语法属性(如名词、动词、副词、形容词等)赋值给词的过程。共享相同词性标记的单词往往遵循类似的句法结构,在基于规则的处理过程中非常有用。

例如,在给定的事件描述中,我们可能希望确定谁拥有什么。通过利用所有格,我们可以做到这一点(提供文本的语法)。SpaCy采用流行的Penn Treebank POS标记(参见这里)。利用SpaCy,可以分别使用.pos_ 和 .tag_方法访问粗粒度POS标记和细粒度POS标记。在这里,我访问细粒度的POS标记:

In[7]:doc2 = nlp("Conor's dog's toy was hidden under the man's sofa in the woman's house")

...: pos_tags = [(i, i.tag_) fori indoc2]

...: pos_tags

...:

Out[7]:

[(Conor,'NNP'),

('s, 'POS'),

(dog,'NN'),

('s, 'POS'),

(toy,'NN'),

(was,'VBD'),

(hidden,'VBN'),

(under,'IN'),

(the,'DT'),

(man,'NN'),

('s, 'POS'),

(sofa,'NN'),

(in,'IN'),

(the,'DT'),

(woman,'NN'),

('s, 'POS'),

(house,'NN')]

我们可以看到,'s 的标签被标记为 POS.我们可以利用这个标记提取所有者和他们拥有的东西:

In[8]:owners_possessions = []

...: for i in pos_tags: ...: if i[1] == "POS":

...: owner = i[0].nbor(-1)

...: possession = i[0].nbor(1)

...: owners_possessions.append((owner, possession))

...:

...: owners_possessions

...:

Out[8]: [(Conor, dog), (dog, toy), (man, sofa), (woman, house)]

这将返回所有者拥有元组的列表。如果你想在这件事上表现成为超级Python能手的话,你可以把它写成一个完整的列表(我认为这是最好的!):

In[9]: [(i[0].nbor(-1), i[0].nbor(+1)) for i in pos_tags if i[1] == "POS"]

...: Out[9]: [(Conor, dog), (dog, toy), (man, sofa), (woman, house)]

在这里,我们使用的是每个标记的.nbor 方法,它返回一个和这个标记相邻的标记。

实体识别

实体识别是将文本中的指定实体分类为预先定义的类别的过程,如个人、地点、组织、日期等。spaCy使用统计模型对各种模型进行分类,包括个人、事件、艺术作品和国籍/宗教(参见完整列表文件))

例如,让我们从贝拉克·奥巴马的维基百科条目中选出前两句话。我们将解析此文本,然后使用Doc 对象的 .ents方法访问标识的实体。通过调用Doc 的这个方法,我们可以访问其他的标记方法 ,特别是 .label_ 和 .label两个方法:

In[10]:wiki_obama = """Barack Obama is an American politician who served as

...: the 44th President of the United States from 2009 to 2017.He is the first

...: African American to have served as president,

...: as well as the first born outside the contiguous United States."""

…:

…:nlp_obama = NLP(wiki_obama)

…:[(i, i.label_, i.label) for i in nlp_obama.ents]

...:


Out[10]: [(Barack Obama, 'PERSON', 346), (American, 'NORP', 347),
 (the United States, 'GPE', 350), (2009 to 2017, 'DATE', 356), 
(first, 'ORDINAL', 361), (African, 'NORP', 347), (American, 'NORP', 347),
 (first, 'ORDINAL', 361), (United States, 'GPE', 350)]

您可以看到在本例中,模型所识别的实体以及它们的精确程度。PERSON 是不言自明的;NORP是国籍或宗教团体;GGPE标识位置(城市、国家等等);DATE 标识特定的日期或日期范围, ORDINAL标识一个表示某种类型的顺序的单词或数字。

在我们讨论Doc方法的主题时,值得一提的是spaCy的句子标识符。NLP任务希望将文档拆分成句子的情况并不少见。利用SpaCy访问Doc's.sents 方法并不难做到:

In[11]:for ix, sent in enumerate(nlp_obama.sents, 1):

...: print("Sentence number {}: {}".format(ix, sent))

...: Sentence number 1: Barack Obama is an American politician who served as the 44th President of the United States from 2009 to 2017.Sentence number 2:
 He is the first African American to have served as president, as well as the first born outside the contiguous United States.

目前就是这样。在以后的文章中,我将展示如何在复杂的数据挖掘和ML的任务中使用spaCy。

TrueSight是一个AIOps平台,由机器学习和分析提供动力支持,它解决了多个云的复杂性,并且提高了数字转化的速度,从而提升了IT运­作的效率。


原文发布时间为:2018-03-28

本文作者:Jayesh Ahire

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关文章
|
23天前
|
数据采集 自然语言处理 算法
如何使用Python的Gensim库进行自然语言处理和主题建模?
使用Gensim库进行Python自然语言处理和主题建模,包括:1) 安装Gensim;2) 导入`corpora`, `models`, `nltk`等相关模块;3) 对文本数据进行预处理,如分词和去除停用词;4) 创建字典和语料库;5) 使用LDA算法训练模型;6) 查看每个主题的主要关键词。代码示例展示了从数据预处理到主题提取的完整流程。
37 3
|
2月前
|
数据采集 自然语言处理 算法
如何使用Python的Gensim库进行自然语言处理和主题建模?
使用Gensim库进行自然语言处理和主题建模,首先通过`pip install gensim`安装库,然后导入`corpora`, `models`等模块。对数据进行预处理,包括分词和去除停用词。接着,创建字典和语料库,使用`Dictionary`和`doc2bow`。之后,应用LDA算法训练模型,设置主题数量并创建`LdaModel`。最后,打印每个主题的主要关键词。可以根据需求调整参数和选择不同算法。
32 0
|
18天前
|
机器学习/深度学习 自然语言处理 数据可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
|
14天前
|
机器学习/深度学习 自然语言处理 PyTorch
【Python 机器学习专栏】自然语言处理中的深度学习应用
【4月更文挑战第30天】本文探讨了深度学习在自然语言处理(NLP)中的应用,包括文本分类、情感分析和机器翻译等任务。深度学习的优势在于自动特征学习、强大的表达能力和处理大规模数据的能力。常见模型如RNN、LSTM、GRU、CNN和注意力机制在NLP中发挥作用。Python的TensorFlow、PyTorch、NLTK和SpaCy等工具支持NLP研究。然而,数据稀缺、模型解释性和计算资源需求高等挑战仍待解决。随着技术进步,未来深度学习将进一步推动NLP发展,实现更智能的语言交互。
|
20天前
|
人工智能 自然语言处理 Python
使用Python实现自然语言处理模型
使用Python实现自然语言处理模型
18 1
|
25天前
|
缓存 自然语言处理 数据处理
Python自然语言处理面试:NLTK、SpaCy与Hugging Face库详解
【4月更文挑战第16天】本文介绍了Python NLP面试中NLTK、SpaCy和Hugging Face库的常见问题和易错点。通过示例代码展示了如何进行分词、词性标注、命名实体识别、相似度计算、依存关系分析、文本分类及预训练模型调用等任务。重点强调了理解库功能、预处理、模型选择、性能优化和模型解释性的重要性,帮助面试者提升NLP技术展示。
37 5
|
27天前
|
机器学习/深度学习 自然语言处理 算法框架/工具
用于NLP的Python:使用Keras进行深度学习文本生成
用于NLP的Python:使用Keras进行深度学习文本生成
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
如何利用Python实现简单的自然语言处理
本文将介绍如何使用Python编程语言实现简单的自然语言处理(NLP)任务。我们将探讨NLP的基本概念,包括文本预处理、词袋模型和简单的情感分析。通过实例代码和解释,读者将能够理解如何利用Python中的常用库来实现这些功能,为进一步学习和探索NLP打下坚实的基础。
|
1月前
|
人工智能 自然语言处理 API
自然语言处理:Python中的文本分析与情感分析
【4月更文挑战第12天】本文介绍了Python在自然语言处理(NLP)中的应用,重点关注文本分析和情感分析。Python有两大常用NLP库:NLTK和spaCy,前者提供丰富的处理工具,后者则以高速和精确著称。情感分析方面,推荐TextBlob和VADER,前者简单易用,后者擅长分析社交媒体文本。基本流程包括文本预处理(如去除停用词)、使用库进行分析(如spaCy的词性标注和命名实体识别)和情感分析(如TextBlob的情感评分)。通过学习和实践,可以提升Python NLP技能。
|
1月前
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
【4月更文挑战第9天】本文探讨了如何使用Python进行自然语言处理(NLP),包括文本预处理、语言模型构建和情感分析等任务。Python凭借强大的库支持在NLP领域广泛应用。文本预处理涉及转小写、去除标点和停用词,可使用NLTK库实现。语言模型如n-gram用于计算句子概率,而情感分析则可借助TextBlob判断文本情感倾向。此外,spaCy库可用于命名实体识别,识别文本中的特定实体。Python为NLP提供了高效、灵活的解决方案。