Python:使用readability-lxml 提取网页标题和主体内容

简介: Python:使用readability-lxml 提取网页标题和主体内容

github: https://github.com/buriy/python-readability

pypi: https://pypi.org/project/readability-lxml/

安装

$ pip install readability-lxml

代码示例

# -*- coding: utf-8 -*-


from readability import Document
import requests

url = "https://blog.csdn.net/mouday/article/details/94021769";
response = requests.get(url)
response.encoding = "utf-8"

doc = Document(response.text)

print(doc.title()) # 标题
print(doc.summary()) # 主体内容

尝试过几个网页后,发现部分网页可以正常提取主体内容,有些网站提取不正确

            </div>
目录
相关文章
|
机器学习/深度学习 算法 Python
python机器学习之基于内容的推荐算法(附源码)
python机器学习之基于内容的推荐算法(附源码)
985 1
python机器学习之基于内容的推荐算法(附源码)
|
Linux Shell 数据安全/隐私保护
python接口自动化(三十二)--Python发送邮件(常见四种邮件内容)番外篇——上(详解)
本篇文章与前边没有多大关联,就是对前边有关发邮件的总结和梳理。在写脚本时,放到后台运行,想知道执行情况,会通过邮件、SMS(短信)、飞信、微信等方式通知管理员,用的最多的是邮件。在linux下,Shell脚本发送邮件告警是件很简单的事,有现成的邮件服务软件或者调用运营商邮箱服务器
154 0
python接口自动化(三十二)--Python发送邮件(常见四种邮件内容)番外篇——上(详解)
|
数据库 Python
Python 查找两个大文件中不同内容
Python 查找两个大文件中不同内容
|
索引 Python
Python丨学习内容小结
Python丨学习内容小结
109 0
Python丨学习内容小结
|
Python
Python:使用readability-lxml 提取网页标题和主体内容
Python:使用readability-lxml 提取网页标题和主体内容
171 0
|
搜索推荐 Python
【python-致用】为嫖掘金月更奖品,我用刚学的python做了个批量文件内容替换
【python-致用】为嫖掘金月更奖品,我用刚学的python做了个批量文件内容替换
131 0
【python-致用】为嫖掘金月更奖品,我用刚学的python做了个批量文件内容替换
|
XML jenkins 持续交付
python提取xml指定内容
python提取xml指定内容
251 0
python提取xml指定内容
|
JavaScript 前端开发 Java
JavaScript、PHP、Python、Java内容比较和地址比较
JavaScript、PHP、Python、Java内容比较和地址比较
101 0
JavaScript、PHP、Python、Java内容比较和地址比较
|
IDE 开发工具 Python
python 读出pdf文件中的内容
python 读出pdf文件中的内容
87 0
|
Web App开发 Python Windows
【Python】如何获取知乎最有价值的内容
一 前言     相信大部分能看到这篇blog的人都听说过知乎吧?如果你没有听说过,那么链接在这里   知乎  作为一个知乎er,为了更加深入的理解“xxx 是一种什么体验”(的图片),为了践行 “技术改变生活”(实则有些wuliao) ,使用requsets 爬取知乎中最优价值的内容,本文本着探索的精神,写一段获取内容的python程序。
1140 0