Python:正文提取第三方库goose

简介: Python:正文提取第三方库goose

正文提取库goose,效果不是太好,要求不高的话可以试试用

githubhttps://github.com/grangier/python-goose

安装

git clone https://github.com/grangier/python-goose.git
cd python-goose
pip install -r requirements.txt
python setup.py install

代码实例

# -*- coding: utf-8 -*-
# @File    : pygoose_demo.py
# @Date    : 2018-07-25
# @Author  : Peng Shiyu
from goose import Goose
from goose.text import StopWordsChinese
g = Goose({'stopwords_class': StopWordsChinese})
url = "http://www.xinhuanet.com/"
article = g.extract(url=url)
print(article.title)
print(article.cleaned_text)
相关文章
|
自然语言处理 数据可视化 搜索推荐
Python第三方库概览
Python第三方库概览
241 0
|
机器学习/深度学习 XML 数据可视化
python常用的第三方库有哪些?
python常用的第三方库有哪些?
2192 59
|
IDE 开发工具 索引
在Python中安装第三方库
在Python中安装第三方库
2576 30
|
7月前
|
程序员 测试技术 开发工具
怎么开发Python第三方库?手把手教你参与开源项目!
大家好,我是程序员晚枫。本文将分享如何开发Python第三方库,并以我维护的开源项目 **popdf** 为例,指导参与开源贡献。Popdf是一个PDF操作库,支持PDF转Word、转图片、合并与加密等功能。文章涵盖从fork项目、本地开发、单元测试到提交PR的全流程,适合想了解开源贡献的开发者。欢迎访问[popdf](https://gitcode.com/python4office/popdf),一起交流学习!
259 21
怎么开发Python第三方库?手把手教你参与开源项目!
pip批量安装python第三方库
pip批量安装python第三方库
|
Python
python第三方库-字符串编码工具 chardet 的使用(python3经典编程案例)
这篇文章介绍了如何使用Python的第三方库chardet来检测字符串的编码类型,包括ASCII、GBK、UTF-8和日文编码的检测示例。
736 6
|
Python Windows
Python安装第三方库太慢?配置好这个速度飞起
Python安装第三方库太慢?配置好这个速度飞起
476 1
|
自然语言处理 搜索推荐 程序员
【Python】如何使用pip,安装第三方库和生成二维码、操作Excel
【Python】如何使用pip,安装第三方库和生成二维码、操作Excel
279 0
|
Linux Python
Linux离线安装Python第三方库Requests
本文介绍了在无法连接外网的Linux服务器上离线安装Python第三方库Requests的过程,包括下载依赖包、解决依赖问题并成功安装的步骤。
1393 0
|
机器学习/深度学习 存储 数据挖掘
看见更大的Python世界:Python生态系统中的第三方库的安装
看见更大的Python世界:Python生态系统中的第三方库的安装
161 1

推荐镜像

更多
下一篇
oss云网关配置