备案控制台

开发者社区开发与运维文章正文

Python实现文本分词并写入新的文本文件，然后提取出文本中的关键词

2022-01-24 178

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python实现文本分词并写入新的文本文件，然后提取出文本中的关键词

思路

先对文本进行读写操作，利用jieba分词对待分词的文本进行分词，然后将分开的词之间用空格隔断；然后调用extract_tags()函数提取文本关键词；

代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2019/5/19 19:10
# @Author  : cunyu
# @Site    : cunyu1943.github.io
# @File    : Seg.py
# @Software: PyCharm
import jieba
import jieba.analyse
# 待分词的文本路径
sourceTxt = './source.txt'
# 分好词后的文本路径
targetTxt = './target.txt'
# 对文本进行操作
with open(sourceTxt, 'r', encoding = 'utf-8') as sourceFile, open(targetTxt, 'a+', encoding = 'utf-8') as targetFile:
    for line in sourceFile:
        seg = jieba.cut(line.strip(), cut_all = False)
        # 分好词之后之间用空格隔断
        output = ' '.join(seg)
        targetFile.write(output)
        targetFile.write('\n')
    prinf('写入成功！')
# 提取关键词
with open(targetTxt, 'r', encoding = 'utf-8') as file:
    text = file.readlines()
    """
    几个参数解释：
        * text : 待提取的字符串类型文本
        * topK : 返回TF-IDF权重最大的关键词的个数，默认为20个
        * withWeight : 是否返回关键词的权重值，默认为False
        * allowPOS : 包含指定词性的词，默认为空
    """
    keywords = jieba.analyse.extract_tags(str(text), topK = 10, withWeight=True, allowPOS=())
    print(keywords)
  print('提取完毕！')

文章标签：

Python

自然语言处理

关键词：

Python关键词

Python文件

Python文本

Python文本文件

Python分词

村雨遥

目录

相关文章

兵临天下19970108016

|

25天前

|

缓存监控数据可视化

微店item_search - 根据关键词取商品列表深度分析及 Python 实现

微店item_search接口可根据关键词搜索商品，返回商品信息、价格、销量等数据，适用于电商检索、竞品分析及市场调研。接口需通过appkey与access_token认证，支持分页与排序功能，Python示例代码实现调用流程，助力商品数据高效获取与分析。

兵临天下19970108016

66 2 2

小白学大数据

|

2月前

|

存储数据采集自然语言处理

Python爬取公众号文章并实现关键词分析

Python爬取公众号文章并实现关键词分析

小白学大数据

571 1 1

兵临天下19970108016

|

4天前

|

缓存算法数据安全/隐私保护

VVICitem_search - 根据关键词取关键词取商品列表接口深度分析及 Python 实现

VVIC item_search接口支持关键词搜索服装商品，提供价格、销量、供应商等数据，助力市场调研与采购决策。

兵临天下19970108016

63 0 0

winx_19970108018

|

2月前

|

测试技术 API 开发者

淘宝关键词搜索商品列表API接入指南（含Python示例）

淘宝关键词搜索商品列表API是淘宝开放平台的核心接口，支持通过关键词检索商品，适用于比价、选品、市场分析等场景。接口提供丰富的筛选与排序功能，返回结构化数据，含商品ID、标题、价格、销量等信息。开发者可使用Python调用，需注意频率限制与错误处理，建议先在沙箱环境测试。

winx_19970108018

139 6 7

游客akle7anmklvj6

|

7月前

|

机器学习/深度学习存储算法

解锁文件共享软件背后基于 Python 的二叉搜索树算法密码

文件共享软件在数字化时代扮演着连接全球用户、促进知识与数据交流的重要角色。二叉搜索树作为一种高效的数据结构，通过有序存储和快速检索文件，极大提升了文件共享平台的性能。它依据文件名或时间戳等关键属性排序，支持高效插入、删除和查找操作，显著优化用户体验。本文还展示了用Python实现的简单二叉搜索树代码，帮助理解其工作原理，并展望了该算法在分布式计算和机器学习领域的未来应用前景。

游客akle7anmklvj6

105 15 16

鱼的爱情看不出泪水

|

2月前

|

编译器 Python

如何利用Python批量重命名PDF文件

本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook，结合tabula库实现PDF数据读取与处理，并提供代码示例与参考文献。

鱼的爱情看不出泪水

121 1 1

鱼的爱情看不出泪水

|

2月前

|

编译器 Python

如何利用Python批量重命名文件

本文介绍了如何使用Python和PyCharm对文件进行批量重命名，包括文件名前后互换、按特定字符调整顺序等实用技巧，并提供了完整代码示例。同时推荐了第三方工具Bulk Rename Utility，便于无需编程实现高效重命名。适用于需要处理大量文件命名的场景，提升工作效率。

鱼的爱情看不出泪水

141 1 1

站大爷

|

3月前

|

编解码 Prometheus Java

当Python同时操作1000个文件时，为什么你的CPU只用了10%？

本文介绍如何构建一个高效的文件处理系统，解决单线程效率低、多线程易崩溃的矛盾。通过异步队列与多线程池结合，实现任务调度优化，提升I/O密集型操作的性能。

站大爷

69 4 4

overmind1980

|

3月前

|

人工智能索引 Python

[oeasy]python094_使用python控制音符列表_midi_文件制作

本文介绍了如何使用Python控制音符列表制作MIDI文件。首先回顾了列表下标索引（正数和负数）的用法，接着通过`mido`库实现MIDI文件生成。以《两只老虎》为例，详细解析了代码逻辑：定义音高映射、构建旋律列表、创建MIDI文件框架，并将音符插入音轨。还探讨了音符时值与八度扩展的实现方法。最终生成的MIDI文件可通过不同平台播放或编辑。总结中提到，此技术可用于随机生成符合调性的旋律，同时引发对列表其他实际应用的思考。

overmind1980

103 5 5

蓝易云

|

5月前

|

Python

使用Python实现multipart/form-data文件接收的http服务器

至此，使用Python实现一个可以接收 'multipart/form-data' 文件的HTTP服务器的步骤就讲解完毕了。希望通过我的讲解，你可以更好地理解其中的逻辑，另外，你也可以尝试在实际项目中运用这方面的知识。

蓝易云

264 69 69

热门文章

最新文章

【MCP系列教程】 Python 实现 FastMCP StreamableHTTP MCP：在通义灵码 IDE 开发并部署至阿里云百炼

Python中的异步编程：asyncio入门指南

PyCharm：Python开发者的智慧工作台全解析

Python中的f-string：更简洁的字符串格式化

深度分析快手API接口，用Python脚本实现

VVIC seller_search 排行榜搜索接口深度分析及 Python 实现

神经架构搜索NAS详解：三种核心算法原理与Python实战代码

Amazon item_review 商品评论接口深度分析及 Python 实现

Python中的f-string：更简洁的字符串格式化

Python脚本转EXE文件实战指南：从原理到操作全解析

Python中的异常处理机制及其实践

Linux——删除系统python导致yum无法使用

Python数据分析：Numpy、Pandas基础

Python爬虫开发：爬取简单的网页数据

Python爬虫开发：BeautifulSoup、Scrapy入门

python生成excel文件的三种方式

百万级Python讲师又一力作！Python编程轻松进阶，豆瓣评分8.1

用Python给代码安个进度条，太香了吧

Python Selenium获取boss直聘招聘信息

精心整理自学python的宝藏网站，不看亏死

相关课程

更多

Python Web开发基础

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

推荐镜像

更多

python-release

下一篇

2025云栖大会，阿里云百炼邀请您的参与和见证