备案控制台

开发者社区问答正文

使用原生 Python 来对文本进行分词

使用原生 Python 来对文本进行分词

展开

收起

珍宝珠 2019-12-03 14:57:10 789 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

珍宝珠

首先，我们将抓取一些网页内容。然后来分析网页文本，看看爬下来的网页的主题是关于什么。我们将使用 urllib模块来抓取网页：

import urllib.request
response = urllib.request.urlopen('http://php.net/')
html = response.read()
print (html)

从打印输出中可以看到，结果中包含许多需要清理的HTML标记。我们可以用这个 BeautifulSoup 库来对抓取的文本进行处理：

from bs4 import BeautifulSoup
import urllib.request 
response = urllib.request.urlopen('http://php.net/') 
html = response.read()
soup = BeautifulSoup(html,"html5lib")
text = soup.get_text(strip=True)
print (text)

现在，我们能将抓取的网页转换为干净的文本。这很棒，不是么？

最后，让我们通过以下方法将文本分词：

from bs4 import BeautifulSoup 
import urllib.request 
response = urllib.request.urlopen('http://php.net/') 
html = response.read() 
soup = BeautifulSoup(html,"html5lib") 
text = soup.get_text(strip=True) 
tokens = [t for t in text.split()] 
print (tokens)

2019-12-03 14:57:57

赞同展开评论

问答分类：

自然语言处理 Python

问答标签：

Python文本原生Python Python原生 Python分词

问答地址：

开发者社区 > 人工智能 > 问答

相关问答

有没有 python 调用自然语言处理sdk 中的文本纠错功能的代码示例

245

5

0

阿里语音AI的“实时长文本”语音合成服务的流逝返回，有python的sdk吗？

145

1

0

在python中如何按句子进行分词呢？

490

1

0

Python 数据挖掘中，文本相似度计算方法中的其他方法又有哪些呢？

2899

1

0

Python 数据挖掘中，文本相似度计算里的本体是什么意思呢？

2882

1

0

Python 数据挖掘中，文本相似度计算里基于知识组织的方法有哪些呢？

2949

1

0

Python 数据挖掘中，文本相似度计算里基于语料库方法有哪些呢？

2986

1

0

Python 数据挖掘中，文本相似度计算里基于字符串的代表方法有哪些呢？

3076

1

0

Python 数据挖掘中文本相似度的计算有哪些方法？

2962

1

0

Python 数据挖掘中文本相似度的等级划分有哪些呀？

2792

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

相关文章

索引构建：搜索引擎如何为万亿级别网站生成索引？

索引更新：刚发布的文章就能被搜到，这是怎么做到的？

索引拆分：大规模检索系统如何使用分布式技术加速检索？

希望国内AI不要作恶，不要变成百度

搜索引擎：输入搜索词以后，搜索引擎是怎么工作的？

还有其他疑问?