Python:正文提取第三方库goose

简介: Python:正文提取第三方库goose

正文提取库goose,效果不是太好,要求不高的话可以试试用

githubhttps://github.com/grangier/python-goose

安装

git clone https://github.com/grangier/python-goose.git
cd python-goose
pip install -r requirements.txt
python setup.py install

代码实例

# -*- coding: utf-8 -*-
# @File    : pygoose_demo.py
# @Date    : 2018-07-25
# @Author  : Peng Shiyu
from goose import Goose
from goose.text import StopWordsChinese
g = Goose({'stopwords_class': StopWordsChinese})
url = "http://www.xinhuanet.com/"
article = g.extract(url=url)
print(article.title)
print(article.cleaned_text)
相关文章
|
自然语言处理 数据可视化 搜索推荐
Python第三方库概览
Python第三方库概览
147 0
|
1月前
|
IDE 开发工具 索引
在Python中安装第三方库
在Python中安装第三方库
489 30
|
1月前
|
机器学习/深度学习 XML 数据可视化
python常用的第三方库有哪些?
python常用的第三方库有哪些?
424 28
|
3月前
|
Python
python第三方库-字符串编码工具 chardet 的使用(python3经典编程案例)
这篇文章介绍了如何使用Python的第三方库chardet来检测字符串的编码类型,包括ASCII、GBK、UTF-8和日文编码的检测示例。
166 6
|
7月前
|
Python
pip批量安装python第三方库
pip批量安装python第三方库
|
2月前
|
自然语言处理 搜索推荐 程序员
【Python】如何使用pip,安装第三方库和生成二维码、操作Excel
【Python】如何使用pip,安装第三方库和生成二维码、操作Excel
76 0
|
4月前
|
Python Windows
Python安装第三方库太慢?配置好这个速度飞起
Python安装第三方库太慢?配置好这个速度飞起
|
4月前
|
Linux Python
Linux离线安装Python第三方库Requests
本文介绍了在无法连接外网的Linux服务器上离线安装Python第三方库Requests的过程,包括下载依赖包、解决依赖问题并成功安装的步骤。
542 0
|
6月前
|
机器学习/深度学习 存储 数据挖掘
看见更大的Python世界:Python生态系统中的第三方库的安装
看见更大的Python世界:Python生态系统中的第三方库的安装
55 1
|
5月前
|
Python
python如何在内网安装第三方库【7月更文挑战第1天】
【7月更文挑战第1天】确保内外网Python版本相同,安装`freezer`库。列出并保存项目依赖到`requirements.txt`,在wheel文件夹下载对应whl文件。将下载文件及`requirements.txt`打包上传至内网服务器,然后使用`pip`安装所有库,完成环境迁移。
81 0