Py之textrank4zh：textrank4zh的简介、安装、使用方法之详细攻略-阿里云开发者社区

Py之textrank4zh：textrank4zh的简介、安装、使用方法之详细攻略

2021-11-01 1713

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Py之textrank4zh：textrank4zh的简介、安装、使用方法之详细攻略

textrank4zh的简介

TextRank算法可以用来从文本中提取关键词和摘要（重要的句子）。TextRank4ZH是针对中文文本的TextRank算法的python算法实现。

原理

TextRank的详细原理请参考：

Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguistics, 2004.

关于TextRank4ZH的原理和使用介绍：使用TextRank算法为文本生成关键字和摘要

关键词提取

将原文本拆分为句子，在每个句子中过滤掉停用词（可选），并只保留指定词性的单词（可选）。由此可以得到句子的集合和单词的集合。

每个单词作为pagerank中的一个节点。设定窗口大小为k，假设一个句子依次由下面的单词组成：

w1, w2, w3, w4, w5, ..., wn

w1, w2, ..., wk、w2, w3, ...,wk+1、w3, w4, ...,wk+2等都是一个窗口。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。

基于上面构成图，可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词。

关键短语提取

参照关键词提取提取出若干关键词。若原文本中存在若干个关键词相邻的情况，那么这些关键词可以构成一个关键词组。

例如，在一篇介绍支持向量机的文章中，可以找到关键词支持、向量、机，通过关键词组提取，可以得到支持向量机。

摘要生成

将每个句子看成图中的一个节点，若两个句子之间有相似性，认为对应的两个节点之间有一个无向有权边，权值是相似度。

通过pagerank算法计算得到的重要性最高的若干句子可以当作摘要。

textrank4zh的安装

pip install textrank4zh==0.3

pip install textrank4zh

textrank4zh的使用方法

1、测试

#-*- encoding:utf-8 -*-

from __future__ import print_function

import sys

try:

reload(sys)

sys.setdefaultencoding('utf-8')

except:

pass

import codecs

from textrank4zh import TextRank4Keyword, TextRank4Sentence

text = codecs.open('../test/doc/01.txt', 'r', 'utf-8').read()

tr4w = TextRank4Keyword()

tr4w.analyze(text=text, lower=True, window=2) # py2中text必须是utf8编码的str或者unicode对象，py3中必须是utf8编码的bytes或者str对象

print( '关键词：' )

for item in tr4w.get_keywords(20, word_min_len=1):

print(item.word, item.weight)

print()

print( '关键短语：' )

for phrase in tr4w.get_keyphrases(keywords_num=20, min_occur_num= 2):

print(phrase)

tr4s = TextRank4Sentence()

tr4s.analyze(text=text, lower=True, source = 'all_filters')

print()

print( '摘要：' )

for item in tr4s.get_key_sentences(num=3):

print(item.index, item.weight, item.sentence) # index是语句在文本中位置，weight是权重

Py之textrank4zh：textrank4zh的简介、安装、使用方法之详细攻略

textrank4zh的简介

textrank4zh的安装

textrank4zh的使用方法

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Py之textrank4zh：textrank4zh的简介、安装、使用方法之详细攻略

textrank4zh的简介

textrank4zh的安装

textrank4zh的使用方法

热门文章

最新文章

相关电子书