Python实现文本分词并写入新的文本文件，然后提取出文本中的关键词-阿里云开发者社区

Python实现文本分词并写入新的文本文件，然后提取出文本中的关键词

2022-01-24 157

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python实现文本分词并写入新的文本文件，然后提取出文本中的关键词

思路

先对文本进行读写操作，利用jieba分词对待分词的文本进行分词，然后将分开的词之间用空格隔断；然后调用extract_tags()函数提取文本关键词；

代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2019/5/19 19:10
# @Author  : cunyu
# @Site    : cunyu1943.github.io
# @File    : Seg.py
# @Software: PyCharm
import jieba
import jieba.analyse
# 待分词的文本路径
sourceTxt = './source.txt'
# 分好词后的文本路径
targetTxt = './target.txt'
# 对文本进行操作
with open(sourceTxt, 'r', encoding = 'utf-8') as sourceFile, open(targetTxt, 'a+', encoding = 'utf-8') as targetFile:
    for line in sourceFile:
        seg = jieba.cut(line.strip(), cut_all = False)
        # 分好词之后之间用空格隔断
        output = ' '.join(seg)
        targetFile.write(output)
        targetFile.write('\n')
    prinf('写入成功！')
# 提取关键词
with open(targetTxt, 'r', encoding = 'utf-8') as file:
    text = file.readlines()
    """
    几个参数解释：
        * text : 待提取的字符串类型文本
        * topK : 返回TF-IDF权重最大的关键词的个数，默认为20个
        * withWeight : 是否返回关键词的权重值，默认为False
        * allowPOS : 包含指定词性的词，默认为空
    """
    keywords = jieba.analyse.extract_tags(str(text), topK = 10, withWeight=True, allowPOS=())
    print(keywords)
  print('提取完毕！')

Python实现文本分词并写入新的文本文件，然后提取出文本中的关键词

思路

代码

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python实现文本分词并写入新的文本文件，然后提取出文本中的关键词

思路

代码

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像