【文本摘要（1）】抽取式之textrank(无监督学习)：生成200字以内摘要-阿里云开发者社区

【文本摘要（1）】抽取式之textrank(无监督学习)：生成200字以内摘要

2023-11-14 246

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【文本摘要（1）】抽取式之textrank(无监督学习)：生成200字以内摘要

写在最前面

最近在做文本摘要任务，将持续更新以下方法及代码

参考：https://blog.csdn.net/sinat_21843047/article/details/89458435

https://my.oschina.net/letiantian/blog/351154?fromerr=MH7VMUJY

原理

TextRank 算法基于 PageRank，用于为文本生成关键字和摘要。其论文是：

Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguistics, 2004.

pagerank算法

该方法起源于pagerank

PageRank 最开始用来计算网页的重要性。整个 www 可以看作一张有向图图，节点是网页。如果网页 A 存在到网页 B 的链接，那么有一条从网页 A 指向网页 B 的有向边。

构造完图后，使用下面的公式：

S (Vi) 是网页 i 的中重要性（PR 值）。d 是阻尼系数，一般设置为 0.85。In (Vi) 是存在指向网页 i 的链接的网页集合。Out (Vj) 是网页 j 中的链接存在的链接指向的网页的集合。|Out (Vj)| 是集合中元素的个数。

PageRank 需要使用上面的公式多次迭代才能得到结果。初始时，可以设置每个网页的重要性为 1。上面公式等号左边计算的结果是迭代后网页 i 的 PR 值，等号右边用到的 PR 值全是迭代前的。

关键词提取

将原文本拆分为句子，在每个句子中过滤掉停用词(可选)，并只保留指定词性的单词(可选)。

由此可以得到句子的集合和单词的集合。

每个单词作为pagerank中的一个节点。设定窗口大小为k，假设一个句子依次由下面的单词组成:

w1，w2，w3,w4，w5,..., wn

w1,w2，…, wk、 w2，w3，… .,wk+1、 w3，w4，… ,wk+2等都是一个窗口。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。

基于上面构成图，可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词。

关键短语提取

参照关键词提取提取出若干关键词。若原文本中存在若干个关键词相邻的情况，那么这些关键词可以构成一个关键词组。

例如，在一篇介绍支持向量机的文章中，可以找到关键词支持、向量、机，通过关键词组提取，可以得到支持向量机。

摘要生成

将每个句子看成图中的一个节点，若两个句子之间有相似性，认为对应的两个节点之间有一个无向有权边，权值是相似度。

通过pagerank 算法计算得到的重要性最高的若干句子可以当作摘要。

论文中使用下面的公式计算两个句子 Si 和 Sj 的相似度：

分子是在两个句子中都出现的单词的数量。|Si | 是句子 i 的单词数。

由于是有权图，PageRank 公式略做修改：

代码

关于TextRank4ZH

TextRank一算法可以用来从文本中提取关键词和摘要（重要的句子)。TextRank4ZH是针对中文文本的TextRank算法的python算法一实现。

https://github.com/letiantian/TextRank4ZH

安装

依赖

jieba >= 0.35

numpy >= 1.7.1

networkx >= 1.9.1

pip install textrank4zh

使用示例

类TextRank4Keyword、TextRank4Sentence在处理一段文本时会将文本拆分成4种格式:

sentences:由句子组成的列表。

words_no_filter:对sentences中每个句子分词而得到的两级列表。

words_no_stop_words:去掉words_no_filter中的停止词而得到的二维列表。

words_all_filters:保留words_no_stop_words中指定词性的单词而得到的二维列表。

代码1：抽取200字以内摘要

from textrank4zh import TextRank4Sentence
import pandas as pd
tr4s = TextRank4Sentence()
# 抽取200字摘要
def sample_generate(text):
    tr4s.analyze(text=text, lower=True, source = 'all_filters')
    print()
    print( '摘要：' )
    lennum = 0
    summary = ''
    for item in tr4s.get_key_sentences(num=3):
        lennum = lennum + len(item.sentence)
        if lennum > 200:
            break
        summary = summary + item.sentence + '。'
    # print(summary)
    return summary
def generate_file(df):
    df = df.copy()
    generate_diagnosis = []
    i = 1
    for description in df.iloc[:,0]:
        summary = sample_generate(description)
        generate_diagnosis.append(summary)
        print(i,"摘要：",summary)
        i = i + 1
    df.loc[:, "generate_diagnosis"] = generate_diagnosis
    df.to_excel("textrank生成1.xlsx", sheet_name='Sheet1', index=False)
if __name__ == '__main__':
    filepath = './data/test.tsv'
    file = pd.read_csv(filepath, sep='\t')
    generate_file(file)

代码2：摘要词、句

from textrank4zh import TextRank4Keyword, TextRank4Sentence
# text = open('./data/1.txt', 'r', 'gbk').read()
text = '需要摘要的句子'
tr4w = TextRank4Keyword()
tr4w.analyze(text=text, lower=True, window=2)  # py2中text必须是utf8编码的str或者unicode对象，py3中必须是utf8编码的bytes或者str对象
print( '关键词：' )
for item in tr4w.get_keywords(20, word_min_len=1):
    print(item.word, item.weight)
print()
print( '关键短语：' )
for phrase in tr4w.get_keyphrases(keywords_num=20, min_occur_num= 2):
    print(phrase)
tr4s = TextRank4Sentence()
tr4s.analyze(text=text, lower=True, source = 'all_filters')
print()
print( '摘要：' )
for item in tr4s.get_key_sentences(num=3):
    print(item.index, item.weight, item.sentence)  # index是语句在文本中位置，weight是权重

报错处理

报错1：AttributeError: module ‘networkx’ has no attribute ‘from_numpy_matrix’

使用networkx 3.0及以上版本，可能会报这个错误;暂时可将版本降低到1.9.1。

pip3 install networkx==1.9.1

报错2lmportError: cannot import name ‘escape’ from ‘cgi’(Users/xx/miniconda3/iblpython3.8/cgi.py)

解决方法:修改文件

/Users/xx/miniconda3/lib/python3.8/site-packages/networkx/readwrite/gm1. py

vim进入到该.py文件

vim /root/anaconda3/envs/wyt_1.10/lib/python3.8/cgi.py

将

from cgi import escape

替换为（或者直接增加）

from html import escape

注意：

输入 i 进入编辑insert模式
esc退出编辑模式
:wq保存退出

linux系统里的vim是编辑文本的命令，在vi里查找相应关键字的方法如下：

例如搜索 the写法：/the +回车

/+关键字，回车即可。此为从文档当前位置向下查找关键字，按n键查找关键字下一个位置；

?+关键字，回车即可。此为从文档挡圈位置向上查找关键字，按n键向上查找关键字；

【文本摘要（1）】抽取式之textrank(无监督学习)：生成200字以内摘要

写在最前面

原理

pagerank算法

关键词提取

关键短语提取

摘要生成

代码

关于TextRank4ZH

安装

使用示例

代码1：抽取200字以内摘要

代码2：摘要词、句

报错处理

报错1：AttributeError: module ‘networkx’ has no attribute ‘from_numpy_matrix’

报错2lmportError: cannot import name ‘escape’ from ‘cgi’(Users/xx/miniconda3/iblpython3.8/cgi.py)

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【文本摘要（1）】抽取式之textrank(无监督学习)：生成200字以内摘要

写在最前面

原理

pagerank算法

关键词提取

关键短语提取

摘要生成

代码

关于TextRank4ZH

安装

使用示例

代码1：抽取200字以内摘要

代码2：摘要词、句

报错处理

报错1：AttributeError: module ‘networkx’ has no attribute ‘from_numpy_matrix’

报错2lmportError: cannot import name ‘escape’ from ‘cgi’(Users/xx/miniconda3/iblpython3.8/cgi.py)

热门文章

最新文章

相关课程

相关电子书

相关实验场景